你敢要英特尔就有!至强6新品治好选择困难症
2025-04-03 13:18:05 EETOP至强6700/6500系列性能核处理器上市,意味着至强6性能核产品阵容终于“补全”,覆盖从8至128核,得以更好地衔接第四代/第五代至强可扩展处理器产品线,与去年发布的至强6700系列能效核处理器形成清晰的分工。
2024年6月,至强6首次亮相,发布的是代号为Sierra Forest-SP的至强6700能效核处理器。该系列的计算单元采用英特尔3制造工艺,提供了144个能效核,主要针对高密度、横向扩展工作负载,如云原生、CDN、微服务等,在为这类应用带来性能改善的同时,能效也有更为明显的提升。至强6700系列能效核处理器最大功耗350瓦,采用Socket E2接口(LGA 4710),支持8通道DDR5 6400MT/s,88个PCIe 5.0通道 及 64个CXL 2.0通道。
2024年9月发布的至强6900系列性能核处理器代号Granite Rapids-AP,定位为旗舰级,适合要求严苛的云、科学计算、AI(机头)等领域,可以在同样的空间内部署更多的性能核(单插槽可以达到128个性能核)、提供更大的内存带宽(12通道内存,并支持MRDIMM 8800MT/s)、更多的PCIe 5.0通道(96个)或CXL 2.0通道(64个),以及6个UPI2.0链路。相应的,至强6900系列性能核处理器需要使用更大面积的接口Socket BR(LGA 7529),最大功耗也增加到500瓦。其新的性能核前端设计有较大改进,在翻倍的内核数量和内存带宽加持下,性能表现是至强6整个家族中的佼佼者,在很多主流应用负载上的性能表现都能达到上一代产品的2-3倍。
今年2月发布的至强6700/6500系列性能核处理器代号Granite Rapids-SP,集成了8到86个性能核,平均每核分配的末级缓存多数都在4MB以上,完整支持AMX指令集,DSA、QAT、IAA和DLB等加速器也都开启。至强6700/6500性能核处理器使用与至强6700能效核处理器相同的接口和功耗上限,PCIe、CXL扩展能力相同,支持8通道DDR5 6400MT/s,部分型号还提供了MRDIMM 8000MT/s的支持能力。该系列的市场定位更偏向主流的数据中心、电信基础设施,以及企业级服务器和边缘场景。
在此,我们先做一个小结:至强6家族规划了AP与SP,以及性能核与能效核的微架构,由此交叉构成多个产品大类:AP+性能核对应至强6900性能核产品线(最高128核),负责提供这代产品目前最强性能输出水平(内核数和内存通道),PCIe和CXL扩展能力也要更强一些,使用面积更大的封装和插座。至强6900性能核的6个UPI2.0链路全部用于双路互联,可以充分提升跨处理器的访问带宽以尽可能提高性能,但不考虑用于构建多路系统。SP+能效核及性能核,对应的产品线则分别为至强6700能效核(最高144核)与至强6700/6500性能核产品线(最高86核),更多是用于主流服务器机型的升级换代,封装尺寸与前几代至强保持一致。
在大模型蔚为风潮的背景下,至强6性能核拥有更多的内核、较大的内存带宽,以及AMX这类为AI任务优化的加速器,不论是传统的神经网络推理,还是Transformer大语言模型推理的性能都相较上一代至强处理器有大幅提升。主流的200亿参数以下的中、小规模的模型在至强6上都可以顺畅运行,再得益于至强本身在通用计算领域的竞争力和积累,就使得至强6700性能核非常适合混合部署AI业务的用户。譬如在互联网行业中已经验证成熟的推广搜(广告、推荐、搜索),企业应用中渗透率很高的自然语言处理,正在蓬勃发展的智能客服、知识助理等大模型私有部署等。这些业务都可以与传统业务部署在同一个节点、同一个资源池当中。
上一小节中提到了至强6性能核自身核心性能、内存带宽的优势。在至强6700/6500系列性能核上,还比较容易获得内存容量的优势。基于传统布局,双路至强6700/6500系列性能核机型依旧可以轻松提供32条内存插槽,可以较低成本部署2~4TB本地内存,上限可以达到8TB。部分型号还可以享受MRDIMM 8000MT/s提供的更高带宽。除了充裕的内存容量和带宽,充足的PCIe 5.0通道数有利于配置多块AI加速器和高性能网卡。至强6700/6500系列的双路节点可以提供176条PCIe 5.0通道,单路节点可提供136条。这使得在4U机箱内部署8卡不再需要依赖PCIe Switch板,在液冷的支持下部署更高的密度也依然游刃有余。
随着以KTransformer为代表的开源大语言模型推理优化框架的出现,利用MoE架构稀疏性的特点在CPU和GPU上实现异构分层部署推理任务逐渐引起重视。这种异构协同的方案可以充分利用算力、存储资源,大幅降低部署门槛,显著提升推理速度。这种模式也能让至强6处理器的计算性能、内存优势及AMX加速能力获得更大的发挥空间。而且至强6性能核产品线中的DSA、QAT、DLB、IAA等加速器也全都默认开放,让数据流的预处理、节点间交互的效率更高。尤其是6700性能核的高性能产品线当中,4种加速器都各提供4个,能助力CPU卸载加密、压缩、数据传输和转换等任务。这些特性有利于改善节点内南北向、东西向数据传输中的消耗,在构建高并行、多节点的AI集群时可进一步提升效率。
XCC:拥有两个计算单元(Compute Tile)和两个IO单元(IO Tile),分别由Intel 3和Intel 7工艺制造。XCC所使用计算单元与组成至强6900性能核的UCC相同,都是单芯片44个内核、4通道内存控制器,区别是UCC使用了3个计算单元。XCC的两个计算单元提供最多86个内核。
高性能产品线提供了最多86核的型号(6787P),多数型号的加速器全部打开。至强6的每个IO单元提供2个加速器模块,每个模块有DSA、QAT、DLB、IAA各1,两个IO单元就是4种加速器各4个。基于LCC的6517P 和 6507P提供的加速器是各两个。
高性能产品线涵盖了XCC、HCC、LCC三种封装,因此内核数量、内存支持、功耗的差异也很大。其中,以第三位数字为界,674xP以上的4款均是XCC,内核数量最多86,LCC末级缓存最多336MB,均支持MRDIMM 8000MT/s。这里有一个特例是6730P,它也基于XCC,提供了288MB末级缓存,但不支持MRDIMM。
其中,6745P以32核享受了多达336MB的末级缓存,平均每核缓存超过10MB!它的频率也较高,基础频率超过3GHz,全核睿频可以达到4.1GHz,单核4.3GHz。这种核少、高频、大缓存的SKU更适合追求低内存延迟、高处理压力的任务,譬如大数据分析、科学计算等。而核数更多的型号则更适合高并行性的任务。
6527P、6736P、6737P这几个SKU使用的HCC封装,提供16到36核的配置。HCC理论上最多48核,提供192MB末级缓存。6737P只使用了其中的32核,但享用了全部末级缓存,因此其定位略高于核数略多的6736P(36核)。
6507和6517P使用LCC封装,核数少,基础频率高,可以达到3.2GHz以上,睿频可以达到4.3GHz,而功耗不到200瓦。LCC给每个性能核准备了4.5~6MB的末级缓存,要多于其他系列的原生设计。高频率、大缓存有都利于在核数相对较少的情况下提升性能。
主流产品线的核数跨度在12个到64个之间,显然也使用了三种版本的内核封装。其中两款67x0P使用XCC,却没有开放MRDIMM的支持。不过好在二者的末级缓存都较大,平均每核心的缓存容量达到至少5MB。相比高性能产品线,主流产品线的加速器只开放了一半,分别只有2个,每CPU的TDX数量也减半了。
多路产品线中超过16核的SKU都开放了全部的加速器。6748P是已公开的至强6产品线中,唯一使用了“满血”HCC的SKU,提供48核和192MB末级缓存。
至强6700和6500性能核的单路产品线所有产品名称的第四位数字均为1,第三位数字与核数的对应关系也最为“整齐”,核数均为8的整倍数,没有特例。单路处理器不需要使用UPI互联,因此IO单元中原本可用作UPI x24的几个UIO可被用作x16的PCIe或CXL通道。最终它们的PCIe通道数比双路“同胞”们多了48个,达到136个。
单路至强6性能核处理器的加速器数量大多为3组,介于性能(4组)和主流(2组)产品线之间。80和64核的单路处理器支持MRDIMM 8000MT/s,但同样使用XCC的48核6741P却不支持MRDIMM。
至强6为旗舰与主流产品提供了不同的封装规模。后者的封装尺寸与第三代至强可扩展处理器以来的几代产品保持相同,TDP的增长也比较谨慎。这意味着对于多数用户而言,这数年来积累的系统布局、运维习惯可以基本保持不变。
狂飙的内核与稳定的外形,这并非反差,而是技术前瞻性和对市场持久承诺的结合。