英伟达发布B200测试结果：FP4 比 H100 快 4 倍

2024-08-29 13:01:33 EETOP

点击关注->创芯网公众号，后台告知EETOP论坛用户名，奖励200信元

英伟达（Nvidia）发布了其 Blackwell B4.1 GPU的第一个 MLPerf 200 结果。结果显示，Blackwell GPU 的性能是其基于 Hopper 架构的前身 H100 的四倍，凸显了英伟达作为 AI 硬件领导者的地位。但是，我们需要指出一些注意事项和免责声明。

根据英伟达的结果，基于Blackwell 的 B200 GPU 在服务器推理测试中在单个 GPU 上提供 10755 个tokens/秒，在离线参考测试中提供 11264 个tokens/秒。从其公开可用的 MLPerf Llama 2 70B 基准测试结果

https://public.tableau.com/app/profile/data.visualization6666/viz/MLCommons-InferenceDatacenter/MLCommons-Inference

发现基于 4 路 Hopper H100 的机器提供了类似的结果，这证明了英伟达的说法，即单个 Blackwell 处理器比单个 Hopper H100 GPU 快约 3.7 倍至 4 倍。但我们需要剖析这些数字以更好地理解它们。

首先，英伟达的 Blackwell 处理器使用 FP4 精度，因为其第五代 Tensor Core 支持该格式，而基于 Hopper 的 H100 仅支持和使用 FP8。MLPerf 指南允许这些不同的格式，但 Blackwell 中的 FP4 性能使其 FP8 吞吐量翻了一番，因此这是第一个需要注意的重要事项。

接下来，英伟达在使用单个 B200 与四个 H100 GPU 方面有些虚伪。扩展从来都不是完美的，因此单个 GPU 往往是每个 GPU 性能的最佳情况。MLPerf 4.1 没有列出单个 GPU H100 结果，只有一个 B200 结果。然而，单个 H200 达到了 4,488 个tokens/秒，这意味着 B200 在该特定比较中仅快了 2.5 倍。

内存容量和带宽也是关键因素，并且存在很大的代际差异。经过测试的 B200 GPU 配备 180GB HBM3E 内存，H100 SXM 配备 80GB HBM（某些配置高达 96GB），H200 配备 96GB HBM3 和高达 144GB 的 HBM3E。具有 96GB HBM3 的单个 H200 在离线模式下仅达到 3,114 个tokens/秒。

因此，数字格式、GPU 数量、内存容量和配置方面存在潜在差异，这些差异会影响“高达 4 倍”的数字。其中许多差异仅仅是因为 Blackwell B200 是一款具有更新架构的新芯片，而所有这些都影响了其最终性能。

回到配备 141GB HBM3E 内存的英伟达H200，它不仅在以 Llama 2 70B 大型语言模型为特色的生成式 AI 基准测试中也表现出色，而且在数据中心类别的每一项测试中都表现出色。出于显而易见的原因，在利用 GPU 内存容量的测试中，它的速度明显快于 H100。

目前，英伟达只公布了其 B200 在 MLPerf 4.1 生成式 AI 基准测试中 Llama 2 70B 模型的性能表现。至于这是因为它仍在进行调优，还是其他原因，我们无法确定，但 MLPerf 4.1 有九个核心测试项目，而现在我们只能猜测 Blackwell B200 如何应对其他测试。

关键词：英伟达 B200 H100