至强秘笈 | 英特尔® 至强® 可扩展平台,由内至外,加速智能时代

36氪品牌·2021年07月28日 19:23
一起回顾英特尔® 至强® 可扩展平台的发展历史。

IDC在前不久发布的《2020-2021中国人工智能计算力发展评估报告》中指出:在数据、算法、算力这三个人工智能要素中,算力已成为驱动AI产业化和产业AI化发展的关键要素;同时,近年来,算法模型的复杂度呈现指数级增长趋势[1]。由此可见,进入智能时代,算力正变得越来越重要。

好在,从2018年面世的第一代英特尔® 至强® 可扩展平台开始,直到去年发布的第三代英特尔® 至强® 可扩展平台,作为企业IT基础设施核心的至强® 处理器和至强® 平台,一直都在苦练“内功”,从硬件层面的创新入手,持续引入各种加速指令集和运算单元,并搭配各种旨在增进性能调优和降低应用开发、优化和部署难度的软件工具,还携手产业界众多合作伙伴,从芯出发,由内至外地应对智能时代的算力挑战。

第一代英特尔® 至强® 可扩展平台:

从AVX-512入手优化并行算力

对于CPU而言,它处理数据的能力,也就是算力,取决于 CPU 集成的指令集。随着数据量的爆发式增长,种类越来越多样,要实现对这些数据的高效处理,特别是高效的并行处理,CPU 的指令集也要不断升级、演进。

2017年,第一代英特尔® 至强® 可扩展平台(以第一代英特尔® 至强® 可扩展处理器为核心)面世。新加入的英特尔® 高级矢量扩展 512技术,即 AVX-512 指令集,与其上一代产品(英特尔® 至强® 处理器E5 v4产品家族)集成的英特尔®高级矢量扩展 2.0(AVX2)相比,数据寄存器的宽度、数量以及 FMA 单元的宽度都增加了一倍。

英特尔®SSE、英特尔®AVX2和英特尔®AVX-512指令集的矢量加法

AVX-512 用途十分广泛,包括科学模拟、金融分析、人工智能深度学习、3D 建模与分析、图像和音频/视频处理、加密及数据压缩等应用,都是它的用武之地。腾讯视频云需要大量的视频编解码、转码操作,使用集成 AVX-512 指令集的英特尔® 至强® 可扩展处理器后,在单任务延时上,带来了高达2倍的性能提升;在全吞吐量上,转码性能也比过去提高了 40% 到 50%。[2]国外的云服务商 Synesis 使用 AVX-512 来提升云平台中处理器、内存和存储资源的利用效率,其评估结果显示:平台需要的处理器节点数可比以前减少一半。[3]

第二代英特尔® 至强® 可扩展平台:

开始集成AI推理加速能力

2019 年,英特尔又推出了第二代英特尔® 至强® 可扩展平台(以第二代英特尔® 至强® 可扩展处理器为核心,除集成了英特尔® 深度学习加速技术,还可搭配英特尔® 傲腾™ 持久内存100系列)。英特尔® 深度学习加速(DL Boost)技术,当时主打CPU对INT8推理的加速,有了它的加成,第二代英特尔® 至强® 可扩展处理器的推理性能相比英特尔® 至强® 可扩展处理器提升多达 30 倍[4],这使其成为英特尔首款集成 AI 加速能力的主流数据中心级 CPU。

第二代英特尔® 至强® 可扩展处理器集成英特尔®深度学习加速技术后实现的AI应用性能提升

英特尔® 深度学习加速技术为何能带来如何显著的推理性能提升?原因就是相当一部分AI推理的模型和场景(特别是图形图像或视频识别、分析的场景)中,数据精度的适度下调不但不会对推理的准确性带来不利影响,反而可以大大降低对系统算力、内存带宽等关键资源的占用,从而大大提升推理的效率或者说是吞吐量。

第二代英特尔® 至强® 可扩展处理器通过英特尔® 深度学习加速技术对INT8推理进行加速,就是利用了这一原理,使用较低精度的数据格式来加速推理,同时不影响结果准确性,同时也减少了处理器消耗,实现了更高的性能,从而实现了对算力的更为充分的利用。在医疗影像分析场景为例,汇医慧影就引入了第二代英特尔® 至强® 可扩展处理器来分析乳腺癌影像,在对检测模型进行了数据格式转换和优化,并利用英特尔® 深度学习加速技术进行助后,其推理速度较原始方案提升高达 8.24 倍,且精确度损失不到 0.17%[5]。

第三代英特尔® 至强® 可扩展平台:

bfloat16登场,实现训练推理全面加速

多年来在数据中心市场的深耕,对全新应用负载的及时支持和优化,以及对开放架构、开源软件生态的长期投入和支持,市场和用户对英特尔® 至强® 可扩展系列处理器及平台的认可度也在不断提升,使其成为世界各地数据中心基础设施的核心基石,更是数据中心深度学习推理的事实标准。当然,英特尔并未止步于此,又在2020年推出了第三代英特尔® 至强® 可扩展系列平台,它不但为英特尔® 深度学习加速技术新添了对bfloat16的加速,还可以搭配第二代英特尔® 傲腾™持久内存(200系列)来加速端到端数据处理和分析的效率。

第三代英特尔至强可扩展处理器增添bfloat16加速能力后为训练和推理带来的性能提升

新增对bfloat16数据格式的加速,是第三代英特尔® 至强® 可扩展处理器对英特尔® 深度学习加速技术的一次扩展,不同于INT8加速主攻AI推理,bfloat16加速可以兼顾对推理和训练的加速。增强型英特尔® 深度学习加速技术实现增强型人工智能推理和训练性能,在人工智能训练性能方面至多达到上一代的 1.93 倍[6]。

在阿里云的实践中,与优化后的 FP32 解决方案相比,第三代英特尔 至强 可扩展平台搭载的英特尔 深度学习加速技术借助全新 bfloat16 功能,在不降低准确率的情况下,将 其BERT 模型推理性能提高了 1.83 倍[7]。

Facebook也抢先体验了英特尔深度学习加速技术升级所带来的性能优势,与 FP32 相比,BF16 将其具有代表性的计算机视觉模型的训练性能提升达 1.64 倍,将 DLRM 模型的训练性能提升达 1.4 倍[8]。

未来,至强赋能,世界更智能

回顾至强® 可扩展平台的发展历史,可以看出英特尔技术的演化是为了满足企业的一个核心需求:支持AI 和数据分析应用的普及和加速。未来,英特尔将继续强化处理器集成的AI 加速能力,并在此基础上推进异构算力平台的创新布局,打造更为高效、灵活和可靠的算力基石,进而更好地为全球的数据中心和边缘解决方案提供动能,释放数据价值,加速产业、经济和社会的数字化、智能化进程。

[1] 中国人工智能计算力发展评估报告

https://www.inspur.com/lcjtww/resource/cms/article/2526910/2527321/2020-2021%E4%B8%AD%E5%9B%BD%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E8%AE%A1%E7%AE%97%E5%8A%9B%E5%8F%91%E5%B1%95%E8%AF%84%E4%BC%B0%E6%8A%A5%E5%91%8A.pdf

[2] 至强秘笈 | AVX-512,加速密集型计算任务的“专用车道”

https://mp.weixin.qq.com/s/jQsLLgldVE4v-FhaFtwcqA

[3] Synesis 依靠英特尔® OpenVINO™ 工具套件分发版打造基于人工智能的大规模智慧城市视频应用

https://www.intel.cn/content/www/cn/zh/cloud-computing/synesis-builds-massive-ai-based-smart-city-video-applications.html

[4] 洞察英特尔®Deep learning Boost 技术助理按需提供性能

https://www.intel.com/content/dam/www/public/cn/zh/documents/sales-guide/deep-learning-boost-battlecard-guide.pdf

[5] 至强秘笈 | DL Boost,以低精度成就高效率的魔术师

https://mp.weixin.qq.com/s/EWyc6kwNjMzZHIiAOmG8Ug

[6] 第三代智能英特尔® 至强® 可扩展处理器简介

https://www.intel.cn/content/www/cn/zh/products/docs/processors/xeon/3rd-gen-xeon-scalable-processors-brief.html

[7] Bfloat16 优化助力阿里云基于第三代英特尔® 至强® 可扩展处理器提升 BERT 模型性能

https://www.intel.cn/content/www/cn/zh/artificial-intelligence/posts/alibaba-blog.html

[8] 英特尔与 Facebook 合作采用第三代英特尔® 至强® 可扩展处理器和支持 BFloat16 加速的英特尔® 深度学习加速技术,提高 PyTorch 性能

https://www.intel.cn/content/www/cn/zh/artificial-intelligence/posts/intel-facebook-boost-bfloat16.html

* 本文内容及配图均为“英特尔商用频道”的原创内容。该公众号的运营主体拥有上述内容的著作权或相应许可。未经该运营主体书面同意,请勿转载、转帖或以其他任何方式复制、发表或发布上述内容。如需转载上述内容或其中任何部分,请留言联系。

英特尔、英特尔标识、以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。

©英特尔公司版权所有。

* 文中涉及的其它名称及商标属于各自所有者资产。

 

 

本文来自微信公众号“英特尔商用频道”(ID:intelbizweixin),作者:英特尔商用频道,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业