一款非常神奇的处理器
2023-09-11 12:19:09 technews(台)来源:科技新报(台)作者:痴汉水球
总计528条线程,代表一个核心高达66条。
8 核心处理器与四个硅光(Silicon Photonics)组件,借助2.5D 封装技术 EMIB 封装在一起。
每个处理器通过32个光学传输接口连结其他处理器,16个处理器组成一个OCP(Open Compute Platform)抽屉,再一路堆成计算机架。
如果直接搜寻「Silicon Photonics」,可能会先看到一堆英特尔销售的光学收发器(Optical Transceiver),以及「结合20 世纪两项最重要的发明:硅晶集成电路和半导体激光」。2016 年开始,英特尔销售数百万个 100G 和更高带宽的光学收发器(800G 也即将登场),用于各种数据通信,特别是数据中心交换器光学互连,替英特尔创造十几亿美元业绩。或也会找到英特尔将交换机芯片直接和光学收发器封装在一起的应用案例(Co-Packaged Optical Switch)。
▲ 随着数据中心网络带宽激增,网络交换机芯片在电路板上的铜线,将电子讯号传递到可抽换式光学收发器(如 10 / 40GbE 的 SFP+ 和 QSFP+,以及用于 25 / 100GbE 的 SFP28 / QSFP28)进行光电转换的「传统」方法,导致讯号处理难度水涨船高,将光学收发器直接和交换机芯片「送做堆」也自然而生,且可大幅降低制造成本与耗电量, 实现更高密度的网络端口数量。
但英特尔对Silicon Photonics的期待和野心远不只此,早在本世纪初就试图挖掘硅晶圆上制造光学传输组件的商业价值和应用潜力。硅晶圆的巨大量产能力,会大幅降低光纤通信设备的价格,更有助半导体元件和光学传输元件整合,因只要是金属导线(铜为主)都会产生电子交互作用问题,电流流通衍生的电阻会导致发热,导线隔绝层也造成许多技术困难,无论处理器和电脑系统,由内到外,都被联系每个功能组件的导线材料重重限制,但用光信号通信就不用这么麻烦。
假若以「光连线」取代「电连线」,不限芯片和系统通信,甚至连芯片内都比照办理,以上障碍将统统迎刃而解,会剧烈冲击既有计算机架构设计,尤其并行化系统。更有甚者,过去「运算」和「通信」是两个不同产业,但「Silicon Photonics」可能推动两者整合。
英特尔早在20几年前就投入「Silicon Photonics」研究,2004年2月春季IDF(Intel Developer Forum)首度公布硅晶圆光调制器(Optical Modulator),并同步发表于权威科学期刊《自然》(Nature),英特尔之前,其他使用硅晶圆生产的光学调变器,最高速度仅20MHz,英特尔却一口气推上 1GHz。那时光调制器和其他光学功能组件,大部分以砷化镓(GaAS)的III-V族半导体及氧化锂铌(Lithium Niobate)为主要材料,制造成本相当高昂,英特尔就造成半导体制程巨大突破。
2006 年 9 月,英特尔宣布与加州大学圣芭疤拉分校研究员,一同找出可制造低价激光硅芯片的方法,混合硅和磷化铟(Indium Phosphide)两种材质结合成单一芯片,让芯片在电脑中可透过激光光传输资料,速度比铜线快许多,也奠定了今日英特尔硅光学元件的基础。
2008 年 12 月,发布硅晶圆累崩光电侦测器(APD,Avalanche Photodetector),可应用数十公里长、40Gbps 以上远距离传输,也超越更昂贵的铟(indium)。
2010 年 8 月,英特尔混合硅晶激光(Hybrid Silicon Laser)达 50Gbps,等于每秒传送一部高画质电影。
2016 年 8 月 IDF,英特尔宣布「Silicon Photonics」量产供货并推出多款 100GbE 光学收发器,象征硅晶圆光学元件商业化。
谈完「Silicon Photonics」,现在知道英特尔这颗实验性处理器是经光学网络传输互连,而如此夸张的「528 线程」数量又是怎么回事?
英特尔是为了DARPA(Defense Agencies Research Program Agency,美国国防高等研究计划署)的HIVE(Hierarchical Identify Verify Exploit)图像分析处理器做出这东西,目标要比现在技术快千倍。当英特尔分析工作负载时,发现是大规模平行处理,快取内存利用率很差,大而无当的非循序(Out-Of-Order Execution)指令执行流水线则根本派不上用场。
接着就好好瞧瞧英特尔的简报。
▲ 研究案背后关键动机是 DARPA HIVE 计划的超稀疏资料,让「传统」处理器微架构发挥不了作用。
▲ 快取内存和非循序指令执行流水线都没有好好利用。
▲ 核心:66 条硬件线程
192kB 快取内存(指令加数据)4MB 专属 SRAM
处理器脚座:8 核心32个光学I/O端口(个别单向32GB/s带宽)32GB DDR5-4400内存
OCP抽屉:16 颗处理器16TB/s 总单向传输带宽0.5TB 容量 DRAM
▲ 每核心有四个多 16 条执行程流水线和两个单线程流水线,66 这数字就是这么来的。
▲ 连接芯片所有核心的路由器架构,总计 10 端口。
5GRgicGcb91clt6qhvLD6lZvnCEXOxnymwMriceohpsNACHNw/640?wx_fmt=png" data-w="1080" data-index="8" src="https://www.eetop.cn/uploadfile/2023/0911/20230911122103151.jpg" _width="100%" crossorigin="anonymous" alt="图片" data-fail="0" style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box; overflow-wrap: break-word !important; vertical-align: middle; height: auto !important; width: 677px; visibility: visible !important;"/>
▲ 单一处理器内部有 16 个路由器组成内网,一半是为了提供更多高速 I/O 带宽。
▲ 处理器之间都是硅光学元件组织的 HyperX 拓朴网络,即使处理器并不在同一个 OCP 抽屉,无须添加交换机和网卡也能互连。
▲ 使用 2.5D 封装技术 EMIB,包入一颗主要运算芯片和四颗硅光收发器。
▲ 光学传输性能,含理论带宽和延迟。
▲ 总功耗约 75W,59% 为硅光元件使用,运算核心仅占 21%。
▲ 模拟到测量的工作负载延展性。
▲▲ 运算芯片的物理规格,制程是台积电7纳米,276亿晶体管,316平方毫米。单一核心 12 亿晶体管,9.3 平方毫米。
▲ 计划概要,总之英特尔还在实验,理论上 HyperX 拓朴网路可延伸超过 10 万个 OCP 抽屉和 100 万个处理器,一个 16 处理器的 OCP 抽屉仅 1200W 功耗,是非常惊人的成就,难以想象换成铜线会是怎样。
历经「20 年磨一剑」发展,英特尔「Silicon Photonics」总算看似开花结果,巨大多处理器系统造成革命性进展,更让人不得不好奇,讲了这么多年,英特尔何时会在一般商业产品,导入这些惊世骇俗的成果,搞不好有机会一举扭转现在劣势。