GDDR7规范重磅发布！深度解读

2024-03-10 11:12:32 EETOP

点击关注->创芯网公众号，后台告知EETOP论坛用户名，奖励200信元

JEDEC 上周二（3月5日））发布了 GDDR7 DRAM 的官方规范，这是显卡和其他 GPU 驱动设备的长期内存标准的最新版本。最新一代 GDDR 带来了内存容量和内存带宽增益的组合，后者主要由内存总线上切换到 PAM3 信号驱动。最新的GDDR 标准还增加了每个 DRAM 芯片的通道数量，添加了新的接口训练模式，并引入了片上 ECC 以保持内存的有效可靠性。

JEDEC 董事会主席 Mian Quddus 表示：“JESD239 GDDR7 标志着高速内存设计的重大进步。随着向 PAM3 信号的转变，内存行业有了一条新的途径来扩展 GDDR 设备的性能并推动图形和各种高性能应用的不断发展。”

GDDR7 最大的技术变化是内存总线上的两位不归零 (NRZ) 编码转换为三位脉冲幅度调制 (PAM3) 编码。这一变化允许 GDDR7 在两个周期内传输 3 位数据，比在相同时钟速度下运行的 GDDR6 多传输 50% 的数据。因此，GDDR7 可以支持更高的总体数据传输速率，这是使每一代 GDDR 连续比其前身更快的关键组件。

第一代 GDDR7 的数据传输速率预计约为 32 Gbps/pin，而内存制造商此前曾表示，最高可达 36 Gbps/pin。然而，GDDR7 标准本身为更高的数据传输速率（高达 48 Gbps/pin）留出了空间，JEDEC 甚至在其新闻稿中宣称 GDDR7 内存芯片“每台设备的速率高达 192 GB/s [32b @ 48Gbps]” 。值得注意的是，这比 PAM3 信号本身带来的带宽增长要高得多，这意味着GDDR7的设计中有多个级别的增强。

深入研究规范，JEDEC还再次将单个32位GDDR内存芯片细分为更多的通道。GDDR6提供了两个16位通道，而GDDR7将其扩展到四个8位通道。从终端用户的角度来看，这种区别有些武断——它仍然是一个32位芯片，运行速度为32Gbps/pin——但它对芯片内部的工作方式有很大的影响。特别是JEDEC保留了GDDR5和GDDR6每通道256位预取，使GDDR7成为32n预取设计。

GDDR 通道架构

所有这些的最终影响是，通过将通道宽度减半但保持预取大小相同，JEDEC 有效地将 DRAM 单元每个周期预取的数据量增加了一倍。这是扩展 DRAM 内存带宽的非常标准的技巧，本质上与 JEDEC 在 2018 年对 GDDR6 所做的事情相同。但它提醒我们，DRAM 单元的速度仍然非常慢（在数百兆赫的数量级上）并且速度并没有变得更快。因此，提供更快内存总线的唯一方法是一次性获取越来越多的数据。

每个内存芯片通道数量的变化也对多通道“clamshell”模式如何适用于更高容量的内存配置有轻微影响。虽然GDDR6在clamshell配置中从每个芯片访问单个内存通道，但GDDR7将访问两个通道- JEDEC称之为双通道模式。具体来说，这种模式从每个芯片读取通道A和C。它实际上与GDDR6的clamshell模式完全相同，这意味着尽管最新一代内存仍然支持clamshell配置，但除了不断增加的内存芯片密度之外，没有任何其他技巧可以用来提高内存容量。

在这方面，GDDR7 标准正式增加了对 64Gbit DRAM 设备的支持，是 GDDR6/GDDR6X 32Gbit 最大容量的两倍。此外，还继续支持非双功率容量，允许使用 24Gbit 和 48Gbit 芯片。对更大内存芯片的支持进一步将理论上采用 384 位内存总线的高端显卡的最大内存容量推高到 192GB 内存，在大型语言人工智能模型时代，这一发展无疑会受到数据中心运营商的欢迎。不过，尽管如此，我们仍然经常看到当今的存储卡使用 16Gbit 内存芯片，尽管 GDDR6 支持 32Gbit 芯片。再加上三星和美光已经透露，它们的第一代 GDDR7 芯片也将分别以 16Gbit/24Gbit 为上限，可以肯定地说，64Gbit 芯片现在还很遥远。

对于其最新一代的内存技术，JEDEC还包括一些新的GDDR内存可靠性功能。最值得注意的是，片上ECC功能，类似于我们在引入DDR5时所看到的。虽然我们还没有从JEDEC那里得到官方评论，说明为什么他们现在选择包括ECC支持，但考虑到DDR5的可靠性要求，它的包含并不奇怪。简而言之，随着存储芯片密度的增加，越来越难以生产出没有缺陷的“完美”芯片;因此，添加片上ECC使内存制造商能够在面对不可避免的错误时保持其芯片的可靠运行。

在内部，GDDR7 规范要求每 256 位用户数据至少 16 位奇偶校验数据（6.25%），JEDEC 给出了 9 位单纠错码（SEC）和 7 位循环冗余校验（CRC）的示例实现。总体而言，GDDR7 片上 ECC 应该能够纠正 100% 的 1 位错误，并检测 100% 的 2 位错误——在极少数 3 位错误的情况下，检测率降至 99.3%。有关内存错误的信息也通过JEDEC所说的片上ECC透明协议提供给内存控制器。虽然在技术上与ECC本身是分开的，但GDDR7还引入了另一个内存可靠性功能，即命令地址与命令阻塞（CAPARBLK）的奇偶校验，旨在提高命令地址总线的完整性。

此外，虽然加入片上 ECC 对消费类显卡的影响不会超过对 DDR5 内存和消费类平台的影响，但这对工作站和服务器显卡意味着什么还有待观察。工作站和服务器显卡供应商在无保护内存上使用软 ECC 已经有好几代了；GDDR7 显卡大概也会如此，但与 CPU 领域相比，软 ECC 的常规使用会让事情变得更加灵活。