Hot Chips：IBM 用两款新处理器解决生成式 AI 问题

2024-08-30 11:56:56 EETOP

点击关注->创芯网公众号，后台告知EETOP论坛用户名，奖励200信元

在本周的 2024 年 Hot Chips 大会上，IBM 宣布了两款新的 AI 处理器，即 Telum II 和 Spyre Accelerator。据该公司称，这些处理器将驱动下一代 IBM Z 大型机系统，特别是增强 AI 功能，包括大型语言模型（LLM）和生成式 AI。

IBM 的新处理器

IBM 设计的处理器保持了 IBM 大型机众所周知的高安全性、可用性和性能级别。

Telum II 的架构创新

IBM 的 Telum II 处理器对其前身进行了显著改进，具有更快的速度、更大的内存容量和新功能。

“我们设计了 Telum II，以便内核可以将 AI 操作卸载到模块中其他七个相邻处理器芯片中的任何一个，” IBM 微处理器设计师 Chris Berry 说。“它为每个内核提供了对更大 AI 计算池的访问，从而减少了对 AI 加速器的争用。”

该处理器利用八个高性能内核，每个内核以固定的 5.5GHz 频率运行，并具有集成的片上 AI 加速器。该加速器直接连接到处理器的 CISC 指令集，以实现低延迟 AI 操作。与依赖内存映射 I/O 的传统加速器不同，Telum II 的 AI 加速器将矩阵乘法和其他 AI 基元作为本机指令执行，从而减少开销并提高吞吐量。Telum II 中每个加速器的 AI 计算能力翻了两番，达到每个芯片 24 TOPS。

Tellum II 处理器

该处理器还大幅增加了缓存容量，每个内核都可以访问 36 MB 的 L2 缓存，片上总计 360 MB。虚拟 L3 和 L4 缓存分别增长了 40%，达到 360 MB 和 2.88 GB。这些增强功能使 Telum II 能够更高效地处理大型数据集，进一步支持其 AI 和事务处理能力。

Tellum 的数据处理单元

Telum II 处理器的显著特点之一是其集成数据处理单元（DPU）。

在 IBM 大型机每天处理数十亿个事务的企业环境中，I/O 运营效率极为重要。因此，Telum II 中的 DPU 连贯地连接到处理器的对称多处理（SMP）结构，并配备了自己的 L2 缓存。

DPU 架构包括四个处理集群，每个集群有 8 个可编程微控制器内核，总共 32 个内核。这些内核通过本地一致性结构互连，该结构在整个 DPU 中保持缓存一致性，并将其与主处理器集成。这种集成允许 DPU 直接在片上管理自定义 I/O 协议。

Berry 说：“通过将 DPU 放在 PCI 接口的处理器端，并实现 DPU 与运行主要企业工作负载的主处理器的连贯通信，我们可以最大限度地减少通信延迟并提高性能和能效。“整个系统的 I/O 管理功耗降低了 70%。”

此外，DPU 包括用于循环冗余校验（CRC）加速的专用硬件和用于批量数据传输的专用数据路径，因此缓存不会受到瞬态数据的污染。

Spyre 加速器：大规模增强 AI

与 Telum II 处理器相辅相成的是IBM Spyre 加速器，这是一款专用的 AI 芯片，旨在将 AI 功能扩展到仅靠主处理器所能实现的之外。

Spyre 加速器安装在 75 W PCIe 适配器上，具有 32 个内核，每个内核具有 2 MB 的暂存器内存，片上总计 64 MB。与传统缓存不同，此暂存器通过共同设计的软硬件框架进行优化，可在 AI 计算期间实现高效的数据存储和管理。

Spyre 加速器

Spyre 加速器支持大型语言模型和其他计算密集型 AI 工作负载。Spyre 在单个 I/O 模块中的 8 个卡中提供高达 1 TB 的内存，使 IBM Z 系统能够处理需要大量计算能力和内存带宽的 AI 工作负载。加速器的核心支持 int4、int8、fp8 和 fp16 数据类型。在同时使用多个 Spyre 卡的情况下，系统可以扩展到 1.6 TB/s 的内存带宽。