客观地说,今天无论是产业变革还是技术迭代都在不断加速演进:一方面,整个产业正经历着从消费互联网到产业互联网的转变;另一方面,整个技术创新进程也经历着从基础设施云化到业务数字化,再到应用现代化的变革。
这种前所未有的变化,无疑让千行百业的数字化转型走入了一个关键的十字路口。如何让企业级用户获取更强的数智化能力,成为真正的“数字原生”企业,可以说是整个数据中心市场共同面对的全新机遇与挑战。
在此背景下,英特尔2021架构日披露的信息就格外引人瞩目,因为它揭示了该公司在CPU、GPU及IPU架构方面的重大变化与革新,提前“预览”了包括两款x86 CPU内核、两款数据中心SoC、两款独立GPU以及首个客户端多核性能混合架构在内的多款重量级产品与技术,全方位体现了英特尔在硬件、软件、架构和制程等方面的强劲实力。
也正因此,英特尔CEO帕特·基辛格在架构日上兴奋地说:“Intel is back!新的故事才刚刚拉开序幕,而这些激动人心的基础创新,也必将为英特尔从现在到2025年乃至更远未来的产品注入全新的动力。”
毫无疑问,英特尔2021架构日上释放了这样一个信息,那就是面对算力需求增长越来越快的今天,英特尔正通过全方位、多样化的技术创新,为整个市场提供更多差异化且能彼此互补和组合的产品选择,而在这背后,不仅是英特尔过去五十多年以来在计算市场保持高强度自我迭代和进化的真实写照,更是英特尔致力于驱动数据中心再创新的决心和信心的重要印证。
Sapphire Rapids:为数据中心架构树立新标准
过去几年,英特尔一直致力于建立一个以数据为中心的高效架构,持续为用户提供领先且全面的产品组合与解决方案,而在2021架构日上公布的专为数据中心设计的下一代英特尔® 至强® 可扩展处理器Sapphire Rapids,无疑是它又一次重要的尝试,而且还是被寄望为“为数据中心架构树立全新标准”的尝试。
在英特尔首席数据中心架构师Sailesh看来:“Sapphire Rapids代表了业界在数据中心平台上的一大进步。”这是因为该处理器可在不断变化且需求日益严苛的数据中心使用中提供可观的计算性能,并对不同工作负载进行深入优化,以求在云、微服务和AI等弹性计算模型上都能输出更优的性能。
事实上,Sapphire Rapids之所以被称之为数据中心架构的新标准,可以从三个维度来做观察:
一是,在SoC架构方面,Sapphire Rapids的核心是一个分区块、模块化的SoC架构,它采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,兼具了显著的可扩展性。在此基础上,Sapphire Rapids还提供了一个单一、平衡的统一内存访问架构,让每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC层面的一致的低时延和高横向带宽。
“借助分区块、模块化的SoC架构,处理器既能够不受架构的物理限制,也无需做艰难的妥协,就能够增加内核数量、缓存、内存和I/O,这对于为所有工作负载提供平衡的扩展和一致的性能来说,这个基础SoC架构至关重要,同时这也是实现数据中心弹性水平和更优数据中心利用率的关键。”英特尔数据中心首席工程师Nevine Nassif说。
二是, Sapphire Rapids不仅将基于Intel 7制程来生产,同时还将采用英特尔全新的性能核微架构,由此可以在提高速度,实现更低时延和更优单线程应用性能方面突破此前的极限。
据Sailesh介绍,在为Sapphire Rapids这款处理器设计性能核微架构时,英特尔做了大量创新工作,包括借鉴了多代至强® 处理器在大规模部署中的经验。例如,数据中心工作负载中的大型代码体积,从根本上受到内核前端性能的限制。为此英特尔完全重新设计了前端,以突破性能核面临的瓶颈问题;此外,英特尔还针对性能核做了多项改进,涵盖高速虚拟机迁移、增强缓存和面向多租户场景的全新TLB QoS功能,同时还引入了自主精细化的电源管理,以在无抖动的情况下提高内核性能等等。
三是,在加速器引擎方面,英特尔也为Sapphire Rapids增加了新的指令集架构和集成IP,通过内置加速器引擎,如英特尔® 加速器接口架构指令集(AIA)、英特尔® 高级矩阵扩展(AMX)以及英特尔® 数据流加速器(DSA)等,帮助客户提升一些特定且关键的应用负载的性能。
以最新加入的AMX为例,该引擎可为深度学习算法核心的Tensor处理提供大幅加速。其可以在每个周期内进行2000次 INT8运算和1000次 BFP16运算,实现计算能力的大幅提升。在早期的Sapphire Rapids芯片测试中,与使用英特尔 AVX-512 VNNI指令的相同微基准测试版本相比,使用新的英特尔AMX 指令集扩展优化的内部矩阵乘法微基准测试的运行速度提高了7倍以上,能够为AI工作负载中的训练和推理上提供显著的性能提升。
除此之外,Sapphire Rapids还集成了先进的内存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技术,希望以此来推动行业技术更为全方位的转型。由此可见,通过Soc架构的创新,性能核的改进以及引入更多的加速器引擎,将使得Sapphire Rapids能够为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式提供“开箱即用”的性能,确实有望为未来数据中心架构的创新树立一个新的标准,或者说新的高度。
Ponte Vecchio:驱动HPC和AI应用“加速跑”
我们知道,AI人工智能、自动驾驶等技术,近年来引发了很高的市场关注度,成为当下科技领域和投资领域最为火热的话题,而这让GPU也越来越多地参与到计算中来,在AI、HPC和高级分析等工作负载中开始发挥越来越重要的作用。
如此关键的“战场”,英特尔自然不会缺席,在2021架构日中,基于Xe-HPC微架构,英特尔也展示了面向高性能计算和人工智能工作负载的新款GPU——Ponte Vecchio。
英特尔Ponte Vecchio首席架构师Masooma Bhaiwala表示:“保守地说,Ponte Vecchio是我在30年的芯片开发生涯中开发的最复杂的芯片。实际上,我甚至不确定把它称为芯片是否准确,它包含了诸多芯片的集合,而我们把这些芯片称为‘单元’,它们通过高带宽互连交织在一起,就像一个单晶片一样发挥作用。”
的确如此,Ponte Vecchio这款GPU芯片采用了新的SoC架构、新的IP架构,新的内存架构,新的IO架构,新的封装技术,新的供电技术,新的互连技术,新的信号完整性技术,新的可靠性方法,借助了全新的软件,以及新的验证方法。英特尔更是把Ponte Vecchio的研发成功称之为一次“制造奇迹”。
据Masooma Bhaiwala介绍,Ponte Vecchio芯片由几个以单元显示的复杂设计构成,包括计算单元、Rambo单元、Xe链路单元以及包含高速HBM内存的基础单元。它们通过嵌入式多芯片互连桥接(EMIB)单元进行组合,而EMIB区块则可在这些单元之间实现功耗较低的高速连接。此外,这些单元利用Foveros技术封装到一起,形成有源芯片的3D堆叠,提高功率和互连密度,同时高速MDFI互连则可让堆栈从1个扩展到2个。
如此复杂的设计背后,带来的当然是一款性能极为可观的GPU,在架构日上,英特尔也展示了早期的Ponte Vecchio芯片领先的性能。数据显示,其A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的内存结构带宽,以及高于2 TBps的连接带宽,在流行的AI基准测试中创造了推理和训练吞吐量的行业记录——英特尔分享的一段演示视频就显示出,其ResNet推理性能超过43000张图像/秒,ResNet训练性能超过每秒3400张图像/秒,这两个性能数据完全称得上是行业领先。
根据英特尔的规划,Ponte Vecchio目前已走下生产线进行上电验证,并已开始向客户提供限量样品,同时英特尔预计于2022年面向HPC和AI市场发布Ponte Vecchio,相信Ponte Vecchio一定会给GPU市场带来巨大影响,同时也会助推AI和HPC在企业数智化的转型中,发挥更加重要的价值和作用。
IPU家族闪亮登场:充分释放云化基础设施的价值
值得一提的是,在2021架构日上,英特尔还带来了基础设施处理器(IPU),它是一种可编程的网络设备,能够帮助云和通信服务供应商最大化地减少CPU在非关键负载,特别是基础设施服务上的开销,并充分释放整个云化基础设施的价值。
英特尔数据平台事业部首席技术官Guido Appenzeller形象比喻说:“CPU和IPU之间的关系类似家和酒店的区别,在家里人们可以很方便地从客厅走到餐厅和厨房,但是在酒店则完全不同,酒店中客房、餐厅和厨房是完全分开的,而目前云基础设施领域也呈现相同的发展趋势。” Guido Appenzeller认为,采用IPU全新架构所带来的优势,主要体现在三个方面:第一,云服务商能够更加清晰地把基础设施功能和用户的工作负载分隔开来,使用户可以全面掌控CPU,提高整个架构的灵活性;第二,云服务商可以把基础设施任务从CPU转移到IPU上,这有助于最大化地利用CPU,也有助于公有云实现收入的最大化;第三,IPU允许云数据中心里存在无磁盘服务器架构,而借助IPU,用户也可以通过一个安全、可编程、稳定的解决方案更好地利用资源,使其能够平衡处理与存储。而且更重要的是,用户也可以不再通过传统的模式配置超额的服务器资源,通过“开箱即用”的能力即可获得相应的资源,由此减少成本支出。
也正因此,英特尔表示IPU将会成为未来数据中心架构的核心组件。目前,IPU基本上使用两类架构:一类是基于ASIC的IPU;另一类是基于FPGA的IPU,而在这两类架构中,英特尔均有投入和布局。
其中,Mount Evans是英特尔首个ASIC IPU,这是英特尔与一家一流云服务提供商共同设计和开发的,它融合了多代FPGA SmartNIC的经验,能够提供超大规模部署能力,以及高性能网络和存储虚拟化的卸载,同时保持高度控制力。此外,它还采用了业界一流的可编程数据包处理引擎,支持防火墙和虚拟路由等用例。与此同时,Mount Evans也可使用现已普遍部署的DPDK、SPDK等软件环境进行编程,并可采用英特尔Barefoot Switch部门开创的P4编程语言来配置管线等。
而Oaks Springs Canyon,则是基于FPGA的IPU,它会采用英特尔的Agilex FPGA 和英特尔® 至强 D 处理器,这是一款可扩展、开源软件和硬件的基础设施,可卸载Open Virtual Switch(OVS)等网络虚拟化功能以及NVMe over Fabric和 RoCE v2等存储功能,并提供硬化的加密模块。它还配备有更安全和高速的2x 100Gb以太网网络接口,同时能够使用英特尔® 开放式FPGA开发堆栈(英特尔® OFS)定制其解决方案。不仅如此,英特尔还提供了N6000加速开发平台,代号为“Arrow Creek”,是一款专为搭载至强服务器设计的SmartNIC。
对此,Guido Appenzelle也表示:“每一类IPU都有自己的优势和劣势。基于FPGA的IPU能够快速实施新协议,应对不断变化的要求或新协议;而ASIC IPU可以实现性能和效率的最大化,但两者实际上都不同于经典的SMART NIC,后者缺乏执行基础设施控制面的能力。由于在不同类型的基础设施加速场景中,没有适用所有情况的方案,因此英特尔将继续投资于这两类IPU以及SMART NIC。”
总体来看,英特尔2021架构日,实际上是提前“预览”了众多的企业级或数据中心用产品和方案,但限于篇幅本文重点介绍了英特尔针对数据中心市场的CPU、GPU和IPU,其实除了硬件之外,在软件、架构和制程方面英特尔同样也做了大量的变革和创新。
正如帕特·基辛格最后强调:“对英特尔而言,这是振奋人心的时刻。我们的战略和执行都在加速,我们正为英特尔创新与技术领先的新时代描绘蓝图。英特尔在软件、芯片和平台方面的深度与广度,在封装和制程工艺方面的技术,以及在大规模制造上的实力,都赋予英特尔独特的位势,去抓住这一巨大的增长机遇。”
从这个角度来说,性能强劲以及适应多样化计算场景的产品和解决方案,正在成为整个数据中心市场发展的新趋势,而英特尔在此过程中依然在通过不断地迭代和进化,来全力驱动数据中心市场的“再创新”,相信英特尔这种不断坚持创新、不断自我进化的价值观,一定会引领和驱动数据中心未来的演进,并在加速百行千业的数智化转型过程中,扮演更加关键的角色或发挥更为重要的作用。