大量硬件故障,无法上线!美国世界第一超算遇到大麻烦

2022-10-09 12:03:17 EETOP

建造一台超级计算机总是具有挑战性的,但创造业界首个百亿亿级(E级)系统更是会遇到完全出乎意料的遭遇,需要在硬件和软件方面进行大量工作。不幸的是,这种情况发生在了目前全球超算排名第一的橡树岭国家实验室(Oak Ridge National Laboratory)Frontier超级计算机上,它几乎每天都会出现大量硬件故障。

图片

ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦(2万千瓦)HPE 构建了系统并使用了 Cray EX 专为横向扩展应用设计的架构,主要用于超高速超级计算机。

虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直在阻止机器上线,并且无法提供给需要大约 1 FP64 ExaFLOPS 性能的研究人员使用。

橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHP的采访时表示:“我们正在解决硬件方面的问题,并确保我们理解具体是什么问题。为何会遇到如此规模的失败,导致这种规模的系统的平均故障间隔时间是几个小时,而不是几天。"

关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC的另一篇报道,有人说该系统在Slingshot互连上遇到了问题。此外,还有人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。

Whitt没有证实该系统遇到了 Instinct 或 Slingshot 的任何特定问题,但他强调该机器存在许多硬件问题。

“很多挑战都集中在这些 GPU 上,但这并不是我们所看到的大部分挑战。” OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,因为GPU是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有太多担忧。"

到目前为止,橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构和 Slingshot 互连、AMD EPYC(霄龙)CPUAMD Instinct 计算 GPU 的系统。例如, 芬兰的 Lumi 超级计算机 (Cray EX、EPYC Milan、Instinct MI250X 计算 GPU)提供了 550 PetaFLOPS 的峰值性能,并被 正式列为 世界第三强大的超级计算机。

只有时间才能证明最初承诺于 2022 年上线的 Frontier 超级计算机是否会在 2023 年开始提供给研究人员,因为它仍未正式部署。

原文:

https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure

关键词: 超算 E级超算 Frontier 橡树岭 AMD

  • EETOP 官方微信

  • 创芯大讲堂 在线教育

  • 创芯老字号 半导体快讯

全部评论