NVIDIA GH200 超级芯片:重塑超算性能与AI基准的革新之作

Nvidia 正在将其 GH200 芯片应用于欧洲超级计算机,研究人员正在着手研究这些系统并发布带有性能基准的研究论文。
在这里插入图片描述
在第一篇论文《理解紧密耦合异构系统中的数据移动:以 Grace Hopper 超级芯片为例》中,研究人员对 GH200 的各种应用进行了基准测试,该芯片集成了 CPU 和 GPU。这些数字突显了该芯片的惊人速度以及 AI 和科学应用程序性能如何从本地化的 HBM3 和 DDR5 内存中受益。

Alps 系统的一项基准测试(仍在升级)用于测量 GH200 运行 AI 应用程序时的性能。

另一篇论文《使用百亿亿次气候模拟器提高地球系统模型输出并节省 PB 级存储空间》测量了 Frontier 中 GH200 到 AMD MI250X 的大型集群、Leonardo 中的 Nvidia A100 以及 Summit 中的 Nvidia V100 的性能。这些系统曾位居 Top500 排行榜榜首,现在已进入前十。

GH200 将 Nvidia 专有的 72 个 ARM Neoverse V2 CPU 核心与 132 个 GPU 流处理器直接连接起来。CPU 和 GPU 通过 NVLink-C2C 互连进行通信,该互连以 900GB/秒的速度双向运行。它还具有 96GB 的 HBM3 并汇集了不同类型的 CPU 和 GPU 内存。
在这里插入图片描述

非正式 GH200 分析

研究人员获得了正在升级的阿尔卑斯超级计算机中 GH200 芯片的一个分区,并在 CUDA 12.3 软件堆栈上测量了 AI 基准。阿尔卑斯超级计算机位于瑞士国家超级计算中心。

Alps 是首批使用 GH200 的超级计算机之一,其名为“preAlps”的优化子系统在 Green500 榜单上排名第五。它基于 HPE 的 Slingshot 互连,而不是 Nvidia 的专有网络接口。

研究人员测试了四核 GH200 节点。研究人员表示,统一内存池“为扩展具有大内存占用的应用程序开辟了新的可能性,这些内存占用超出了单个 GPU 或 CPU 直接可用的内存”。

每个节点有 288 个 CPU 核心和四个 Hopper GPU。最终的四核配置总内存为 896GB,每个 Superchip 包括 96GB HBM3 和 128GB LPDDR5 内存。每个节点包含四个 GH200 Superchip,通过 HPE Slingshot 11 连接,每个节点的速度为 800 Gb/s。
在这里插入图片描述
研究人员测量了在统一内存池中将数据存储在 HBM3 或 LPDDR5 中时的各种读取、写入和性能指标。在运行工作负载时,数据会暂时存储在内存中,HBM3 的速度明显快于 LPDDR5。

研究人员测量了基于 GEMM 算法的 AI 性能,该算法利用 GPU 中以 AI 为中心的 Tensor Core。

超级芯片在 HBM3 上的性能为 612 teraflops,DDR 为 59.2 teraflops。FP32 在 HBM3 上的性能为 51.9 teraflops,在 DDR5 上的性能更差,为 22.9 teraflops。在 FP64 上,HBM3 上的性能为 58.4 teraflops,在 DDR 内存上的性能为 13.2 teraflops。

使用 HBM3 内存时,LLM 推理时间也快得多。总而言之,在具有 130 亿个参数的 Llama-2 模型上,100 个 token 的推理速度比 DDR 内存快四倍。使用 Llama-2 70 亿个参数模型时,它大约快两倍。
在这里插入图片描述
对于不同的模型,使用不同的物理内存分配,Llama-2 LLM 100 个 token 的推理时间越短越好。(来源:参考论文)

其他重要发现:Hopper GPU 使用 DDR 时读取速度为 420.2 GB/s,写入速度为 380.1 GB/s,使用 HBM3 时读取速度为 3795.9 GB/s,写入速度为 3712.1 GB/s。

Hopper GPU 的 HBM 内存延迟为 344.2 纳秒,DDR 内存延迟为 817.8 纳秒。

研究人员还对 Grace CPU 进行了读写和内存延迟测试。他们还公布了 CPU 和 GPU 的复制性能。研究人员来自苏黎世联邦理工学院和 Nvidia。

研究人员总结道:“我们认为,尽管 Quad GH200 节点的内存系统非常复杂,但从单个互连的超级芯片的角度来看待该系统对于实现良好的性能至关重要。”

研究人员表示,Nvlink-C2C 互连“为开发混合 CPU 和 GPU 计算的异构应用程序开辟了可能性”。

与 MI250X 和 A100 的比较

研究人员还在阿尔卑斯山的 GH200 集群、Frontier 的 MI250X、Leonardo 的 Nvidia A100 和 Summit 的 Nvidia V100 上运行了气候模拟器应用程序。这些芯片曾位居 Top500 排行榜前列或前 10 名。

这两种比较并不完全是同类比较,尤其是 GH200 与 Nvidia A100 和 V100 的比较,因为它们不包括集成 CPU。

然而,混合精度性能数字(包括双精度和半精度测量)提供了 HPC 爱好者所关心的内容的快照,即这些系统在混合科学和 AI 模拟时提供更整体性能的全景视图。

数据显示,GH200 显著改善了气候模拟应用和数据。地球模拟模型对超级计算系统要求很高,因此非常适合测量 GPU 性能。

Alps 集群拥有 4,096 个 GPU,问题规模为 1040 万,最高可达每秒 3.842 亿亿次浮点运算,每个 GPU 最高可达每秒 93.8 万亿次浮点运算。

Frontier 中的 MIX250X 拥有 4,096 个 GPU,问题规模为 839 万,基准测试结果为 223.7 petaflops,每个 GPU 为 54.6 teraflops。

莱昂纳多超级计算机中的 Nvidia A100 拥有 4,096 个 GPU,问题规模为 839 万,基准测试速度为 243.1 petaflops,每个 GPU 为 57.2 teraflops。

Leonardo 拥有 3,456 个节点,每个节点配备四块 Nvidia A100 64GB GPU,理论双精度峰值性能为 306.31 petaflops。

Summit 中的 V100 拥有 6,144 个 GPU,问题规模为 629 万,总体性能为 153.6 千万亿次浮点运算,每个 GPU 的性能为 25 万亿次浮点运算。Summit 即将退役。
在这里插入图片描述
在四个系统的 1,024 个节点上,混合精度 Cholesky 的双精度/半精度模式性能结果摘要(单位:PFlop/s)。(来源:参考论文)

基准测试中使用的气候模拟器基于 35 年来 3180 亿个每小时温度数据点和 83 年前全球模拟的 310 亿个每日数据点进行训练。

研究人员声称,他们的气候模拟器(作为其他系统的补充)可以从高性能系统中获得更高的性能,在 Frontier(拥有 9,472 个节点)的 9,025 个节点上可提供高达 0.976 exaflops 的性能。

该模拟器还可以为与气候相关的数据密集型模拟带来成本和性能效率。其他模拟器会生成大量 PB 数据,因此存储成本高昂,并限制了计算能力。

例如,美国国家大气研究中心的 CMIP6 模拟了 37,000 年的气候数据(由各种情景生成),消耗了 1.9 亿个 CPU 小时和 2PB 的后处理时间序列数据。

“NCAR 的数据管理成本每年约为每 TB 45 美元。这给需要 PB 级存储的项目带来了巨大的财务负担,并可能限制科学目标,”研究人员表示。

该论文的作者是 NCAR、阿卜杜拉国王科技大学 (KAUST)、圣路易斯大学和圣母大学的研究人员。研究人员还与 Nvidia 和田纳西大学有联系。

来源:内容来自hpcwire,谢谢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值