一张晶圆只做一颗芯片！中国科学家发表论文——大芯片：挑战、模型和架构

2024-01-05 12:10:34 EETOP

点击关注->创芯网公众号，后台告知EETOP论坛用户名，奖励200信元

随着新一代芯片增加晶体管密度变得越来越困难，芯片制造商正在寻找其他方法来提高处理器的性能，其中包括架构创新、更大的芯片尺寸、小芯片设计，甚至晶圆级芯片设计等。后者迄今为止仅由Cerebras 实现。在2019年Cerebras第一次推出其晶圆级芯片时受到了很多质疑，但是目前Cerebras的晶圆级芯片已经有了良好的商业应用。现在，中国的研究机构以及开发商也开始关注晶圆级芯片。中国科学院计算技术研究所的科学家们推出了先进的256 核多芯片，并计划将该设计扩展到 1,600 核芯片，将整个晶圆作为一个计算设备。

中国科学院计算技术研究所的研究人员刚刚在《Fundamental Research》杂志上发表了一篇论文讨论了光刻和小芯片的局限性，并提出了一种他们称之为“大芯片”的架构，该架构模仿了不幸的晶圆级Trilogy Systems 在 20 世纪 80 年代的努力以及Cerebras Systems 在 2019年推出成功的晶圆级架构。

(https://www.sciencedirect.com/science/article/pii/S2667325823003709)

我们知道埃隆·马斯克(Elon Musk) 的特斯拉正在打造自己的“Dojo”超级计算机芯片，但这不是晶圆级设计，而是将Dojo D1 核心复杂地封装成某种东西，如果你眯着眼睛看，它看起来就像是由 360 个小芯片构建的晶圆级插槽。也许通过 Dojo2 芯片，特斯拉将转向真正的晶圆级设计。看起来并不需要做很多工作就能完成这样的壮举。

中国科学院的这篇论文讨论了很多关于为什么需要开发晶圆级器件的问题，但没有提供太多关于他们开发的大芯片架构实际上是什么样子的细节。它并没有表明 Big Chip 是否会像特斯拉对 Dojo 那样采用小芯片方法，或者像 Cerebras 从一开始就一路向晶圆级发展。

据中科院研究人员介绍，名为“浙江”的大芯片实施将在22 纳米工艺。

“浙江”大芯片由 16 个小芯片组成，每个小芯片有 16 个RISC-V 内核。研究人员表示，该设计能够在单个分立器件中扩展至100 个小芯片，我们过去称之为插槽，但对我们来说听起来更像是系统板。目前尚不清楚这 100 个小芯片将如何配置，也不清楚这些小芯片将实现什么样的内存架构（阵列中将有 1,600 个内核）。

我们所知道的是，随着“浙江”大芯片迭代，有 16 个RISC-V 处理器使用芯片上的网络在共享主内存上进行对称多处理，相互连接，并且小芯片之间有 SMP 链接，因此每个块可以在整个复合体中共享内存。

以下是“浙江” RISC-V 小芯片的框图：

以下是如何使用中介层将 16 个小芯片捆绑在一起形成具有共享内存的 256 核计算复合体，从而实现芯片间 (D2D) 互连：

中科院研究人员表示，绝对没有什么可以阻止这种小芯片设计以晶圆级实现。然而，对于这次迭代，看起来它将是使用 2.5D 中介层互连的小芯片。

互连与计算元件一样重要，这在系统和子系统设计中始终如此。

“该接口是使用基于时间复用机制的通道共享技术设计的，”研究人员在谈到D2D 互连时写道。“这种方法减少了芯片间信号的数量，从而最大限度地减少了 I/O 凸块和内插器布线资源的面积开销，从而可以显着降低基板设计的复杂性。小芯片终止于顶部金属层，微型 I/O 焊盘就建在该金属层上。”

虽然一个大芯片计算引擎作为多芯片或晶圆级复合体可能很有趣，但重要的是如何将这些设备互连以提供百亿亿级计算系统。以下是中科院研究人员对此的看法：

“对于当前和未来的超大规模计算，我们预测分层芯片架构是一种强大而灵活的解决方案，”研究人员在描述这种计算和内存的分层结构时写道，如下图所示，这是中科院论文的一段冗长引文。“分层小芯片架构被设计为具有多个内核和许多具有分层互连的小芯片。在chiplet内部，内核使用超低延迟互连进行通信，而chiplet之间则以得益于先进封装技术的低延迟互连，从而在这种高可扩展性系统中实现片上延迟和NUMA效应可以最小化。存储器层次结构包含核心存储器、片内存储器和片外存储器。这三个级别的内存在内存带宽、延迟、功耗和成本方面有所不同。在分层chiplet架构的概述中，多个核心通过交叉交换机连接并共享缓存。这就形成了一个pod结构，并且pod通过chiplet内网络互连。多个pod形成一个chiplet，chiplet通过chiplet间网络互连，然后连接到片外存储器。需要仔细设计才能充分利用这种层次结构。合理利用内存带宽来平衡不同计算层次的工作负载可以显着提高chiplet系统效率。正确设计通信网络资源可以确保小芯片协同执行共享内存任务。”

很难反驳这句话中所说的任何内容，但中科院研究人员并没有说明他们将如何实际处理这些问题。这是最困难的部分。

有趣的是，该图中的内核被称为“可编程”和“可重新配置”，但我们不确定这意味着什么。它可能需要使用可变线程技术（例如 IBM 的Power8、Power9 和 Power10 处理器）来完成更多工作，而不是在核心中混合使用 CPU 和FPGA 元件。

中科院研究人员表示，大芯片计算引擎将由超过 1 万亿个晶体管组成，占据数千平方毫米的总面积，采用小芯片封装或计算和存储块的晶圆级集成。对于百亿亿次 HPC 和 AI 工作负载，我们认为中科院很可能正在考虑 HBM 堆叠DRAM 或其他一些替代double-pumped主内存，例如英特尔和 SK Hynix 开发的MCR 内存。RISV-V 内核可能会有大量本地 SRAM 进行计算，这可能会消除对 HBM 内存的需求，并允许使用 MCR double-pumped技术加速 DDR5 内存。很大程度上取决于工作负载以及它们对内存容量和内存带宽的敏感程度。

Big Chip 论文列出了一份未来技术的愿望清单，例如光电计算、近内存计算以及可以添加到 Big Chip 复合体中的3D 堆栈式缓存和主内存 - 看起来像是使用光学 I /O 处理器是首选。但并未透露其正在研究的内容以及何时可以交付。

本文由EETOP综合整理编译自nextplatform

关键词： Cerebras