美光：多核CPU给DRAM带来麻烦力推堆叠式芯片

2013-12-02 18:13:24 本站原创

多核心CPU令人厌恶。DRAM的运行遭遇带宽难题。随着CPU性能的不断提升，新的问题在于将有更多计算核心尝试访问服务器内存，而带宽将进一步吃紧。解决方案之一在于将DRAM在逻辑层之上按层堆叠，从而使所构成的混合内存立方体(简称HMC)拥有更高的访问速度——美光如今已经实现了这一构想。

美光选择本届丹佛超级计算大会作为舞台，向全世界隆重公布了其专为千万亿次超级计算机所开发的HMC芯片。其它目标应用还包括数据包处理、数据包缓冲或存储以及处理器加速——总之任何在内存带宽限制方面受到束缚的应用都能从中获得提升。

在这次展会上，富士通展示了一块来自搭载HMC芯片的未来超级计算机原型机的电路板。美光也参与其中，并着力创建一套生态系统、旨在吸引更多厂商关注并使用HMC芯片。

一块DRAM芯片结合了访问流程所必需的内存与逻辑功能。如果大家将DRAM芯片层彼此堆叠，那么逻辑电路也将出现重复。HMC给出的方案是将逻辑电路从各芯片当中去除，转而使用一个位于芯片底部的基础逻辑层，从而为HMC当中每一个DRAM层提供相应功能。

HMC的方案展示：利用硅通孔作为贯穿各层的通道。

美光的HMC方案当中拥有四到八个内存层。该公司在一篇博文中表示：“每个内存层都拥有数百万个处于定义组(仓库)中的内存单元，并配备复杂的支持逻辑(仓库控制器)、旨在全方位控制内存单元并提供面向内部通交叉交换机制的接口……HMC拥有16套彼此独立运作的仓库体系，目的在于让每个体系实现稳定的10GB/s(即80Gb/s)真实内存带宽。逻辑层还支持外部接口、交叉交换、内存调度器、内置自测试(简称BIST)、边带信道以及众多可靠性、可用性及可服务性(简称RAS)功能。”

逻辑层通过贯穿整套结构的通道实现与各DRAM层的连通或者对话，也就是所谓硅通孔(简称TSV)机制。这给制造工艺设计师带来了不少难题，因为用于连接底层与三层之间的硅通孔长度与用于连接底层与四层之间的硅通孔长度几乎没什么差别。控制制造精度成了产品成功的必要前提，因为一旦连通的层数出现偏差、整个多层模板就会彻底报废，由此带来的损失要远高于单层DRAM晶圆。

这些硅通孔技术必须完美地与自身经过的DRAM层相绝缘——这又是另一个制造层面的难题。

第三点：DRAM层在硅通孔贯穿位置不能存在内存单元。而层数越多，我们所需要的硅通孔数量也越多，这就让芯片层设计师的工作变得愈发复杂。

其实所谓“立方体”只是一种夸张的形容;真正的逻辑与内存层其实很薄、并不能构成立方结构。

HMC拥有高速CPU连接，而硅通孔则使访问进行“大规模并行”时代。正如美光在一份16页的演示说明中所表述：

HMC设备中的DRAM非常独特，其设计目的在于支持十六个独立的自支持仓库。每套仓库提供10Gb/s稳定内存带宽，因此立方体的整体带宽可达到160GB/s。在每套仓库当中，各DRAM层都拥有两个储库，相当于2GB设备中总计包含128个储库、4GB设备中总计包含256个储库。这给系统性能带来了巨大影响——与以锁步方式运行储库的常规内存相比，新方案拥有更低的查询延迟以及更出色的数据响应可用性。

美光公司还表示，其HCM的160GB/s带宽相当于DDR2模块的15倍，功耗则比现有技术低出达70%。它所占据的空间也比RDIMM低出约九成。

目前HMC联盟共有八位主要开发成员，它们分别是：Altera、ARM、IBM、SK海力士、美光、Open-Silicon、三星以及Xilinix。HMC 1.0规格目前已经制定并正式公布，且拥有超过一百家企业计划采用这套方案。

这些企业能够利用HMC作为“近内存”，即将其安装在处理器附近;或者作为“远内存”，即使用向外扩展HMC模块以实现更高的能源效率。

美光目前已经开始对其2GB HMC芯片进行取样;4GB芯片则将于明年年初开始取样;2GB与4GB HMC设备的批量生产将于明年年末正式开始。