首页
论坛
博客
大讲堂
人才网
直播
资讯
技术文章
频道
登录
注册
x
英伟达发布B200测试结果:FP4 比 H100 快 4 倍
2024-08-29 13:01:33
EETOP
点击关注->
创芯网公众号
,后台告知EETOP论坛用户名,奖励200信元
英伟达(Nvidia)发布了
其 Blackwell B4.1
GPU
的第一个 MLPerf 200 结果
。结果显示,Blackwell
GPU
的性能是其基于 Hopper 架构的前身 H100 的四倍,凸显了英伟达作为
AI
硬件领导者的地位。但是,我们需要指出一些注意事项和免责声明。
根据英伟达的结果,基于Blackwell 的 B200
GPU
在服务器推理
测试
中在单个
GPU
上提供 10755 个tokens/秒,在离线参考
测试
中提供 11264 个tokens/秒。从其
公开可用的 MLPerf Llama 2 70B
基准
测试
结果
https://public.tableau.com/app/profile/data.visualization6666/viz/MLCommons-InferenceDatacenter/MLCommons-Inference
发现基于 4 路 Hopper H100 的机器提供了类似的结果,这证明了英伟达的说法,即单个 Blackwell
处理器
比单个 Hopper H100
GPU
快约 3.7 倍至 4 倍。但我们需要剖析这些数字以更好地理解它们。
首先,英伟达的 Blackwell
处理器
使用 FP4 精度,因为其第五代 Tensor Core 支持该格式,而基于 Hopper 的 H100 仅支持和使用 FP8。MLPerf 指南允许这些不同的格式,但 Blackwell 中的 FP4 性能使其 FP8 吞吐量翻了一番,因此这是第一个需要注意的重要事项。
接下来,英伟达在使用单个 B200 与四个 H100
GPU
方面有些虚伪。扩展从来都不是完美的,因此单个
GPU
往往是每个
GPU
性能的最佳情况。MLPerf 4.1 没有列出单个
GPU
H100 结果,只有一个 B200 结果。然而,单个 H200 达到了 4,488 个tokens/秒,这意味着 B200 在该特定比较中仅快了 2.5 倍。
内存容量和带宽也是关键因素,并且存在很大的代际差异。经过
测试
的 B200
GPU
配备 180GB HBM3E 内存,H100 SXM 配备 80GB HBM(某些配置高达 96GB),H200 配备 96GB HBM3 和高达 144GB 的 HBM3E。具有 96GB HBM3 的单个 H200 在离线模式下仅达到 3,114 个tokens/秒。
因此,数字格式、
GPU
数量、内存容量和配置方面存在潜在差异,这些差异会影响“高达 4 倍”的数字。其中许多差异仅仅是因为 Blackwell B200 是一款具有更新架构的新
芯片
,而所有这些都影响了其最终性能。
回到配备 141GB HBM3E 内存的英伟达H200,它不仅在以 Llama 2 70B 大型语言模型为特色的生成式
AI
基准
测试
中也表现出色,而且在数据中心类别的每一项
测试
中都表现出色。出于显而易见的原因,在利用
GPU
内存容量的
测试
中,它的速度明显快于 H100。
目前,英伟达只公布了其 B200 在 MLPerf 4.1 生成式
AI
基准
测试
中 Llama 2 70B 模型的性能表现。至于这是因为它仍在进行调优,还是其他原因,我们无法确定,但 MLPerf 4.1 有九个核心
测试
项目,而现在我们只能猜测 Blackwell B200 如何应对其他
测试
。
关键词:
英伟达
B200
H100
EETOP 官方微信
创芯大讲堂 在线教育
创芯老字号 半导体快讯
相关文章
上一篇:
消息称OpenAI正进行新一轮融资谈判,使
下一篇:
ChatGPT即将登陆 iOS 18,消息称苹果
0
全部评论
最新资讯
逐点半导体与PerfDog达成合作,为游戏性能
美国最聪明的 CEO 排名:黄仁勋夺冠!
台积电赚得盆满钵满!
德州仪器携手合作伙伴,共绘科技创新蓝图
人形机器人比赛洋相百出! 股民害怕跌停
三星延长工时!
HBM4 内存规范正式发布!
中微董事长放弃美籍!
德州仪器慕尼黑上海电子展:技术创新引领汽
深度揭晓光刻机巨头ASML的薪酬福利、人才招
最热资讯
H20芯片限制解除!晚宴上发生了什么?黄教
重磅!国产量子计算机全球首次运行AI微调大
微软发布最轻量级大语言模型!可在CPU上高
量子计算能带 AI 起飞吗?
美国最聪明的 CEO 排名:黄仁勋夺冠!
无人驾驶现在到了什么级别了?
消息称字节跳动采购10万颗华为GPU!
日本AI第一人这样评价Deepseek
浅析狭义AI 、通用AI 与超级AI
eIQ® Time Series Studio简介:简化边缘 AI 开发