AMD MI300X 与 NVIDIA H100 性能对比分析

作为AMD最新推出的AI GPU旗舰产品,MI300X专为数据中心和AI计算而设计,旨在与NVIDIA的顶级产品正面竞争。即将推出的MI325X将对标H200,而MI350和MI400则对标Blackwell B200。
在这里插入图片描述

Chips and Cheese在各种基准测试中测试了AMD的这款怪兽级GPU,发现它在高速缓存、延迟、推理等方面的性能都远超英伟达的 H100。

Chips and Cheese的基准测试揭示了基于AMD尖端CDNA 3架构构建的MI300X,在硬件方面是一个出色的设计。由于其总共四个缓存的组合,包括32KB的L1缓存、16KB的标量缓存、4MB的L2缓存和巨大的256MB无限缓存(作为L3缓存),芯片的缓存性能看起来非常令人印象深刻。CDNA 3是第一个继承无限缓存的架构,该缓存首次出现在RDNA 2上(AMD的第二代游戏图形架构,驱动RX 6000系列)。
在这里插入图片描述

MI300X GPU核心不仅可以使用四个缓存,而且它们还非常快速。Chips and Cheese的缓存基准测试显示,MI300X的缓存带宽在所有相关缓存级别上都大大超过了Nvidia的H100。L1缓存性能显示,MI300X的带宽比H100高出1.6倍,L2缓存的带宽高出3.49倍,MI300X的最后一级缓存(即其无限缓存)的带宽高出3.12倍。
在这里插入图片描述

即使在H100的SXM版本上时钟更高,我们也不会期望这些缓存结果发生根本性变化。但是,缓存带宽和延迟本身并不一定说明GPU在实际工作负载中的表现。例如,RTX 4090的LLC带宽比H100 PCIe高出27%,但在许多工作负载中,H100将证明更有能力。

在MI300X的VRAM和本地内存性能(即标量缓存)中也存在类似的优势。AMD GPU拥有2.72倍的本地HBM3内存,VRAM带宽比H100 PCIe高出2.66倍。AMD GPU在内存测试中唯一失利的领域是内存延迟结果,H100快了57%。
在这里插入图片描述

请记住,这是在最低规格的H100 PCIe卡上看到的,它拥有80GB的HBM2E。像H200这样的后续版本包括高达141GB的HBM3E,带宽高达4.8 TB/s。H100 SXM变体也有更快的HBM,提供高达3.35 TB/s的带宽,因此使用2.0 TB/s的卡明显限制了内存带宽。

接下来,原始计算吞吐量是MI300X主导Nvidia H100 GPU的另一个领域。指令吞吐量明显偏向AMD芯片,有时MI300X比H100快5倍,最差时也大约快40%。Chips and Cheese的指令吞吐量结果考虑了INT32、FP32、FP16和INT8计算。
在这里插入图片描述

看看这些数据中心GPU的当前和上一代结果也很有趣。H100 PCIe在某些工作负载中,如FP16 FMAs和Adds,显示出更强的性能,但在其他地方它只比A100略快。另一方面,AMD的MI300X比上一代MI210显示出普遍的巨大改进。

Chips and Cheese进行的最后一项测试,显然也是最重要的测试,是AI推理测试,不仅涉及MI300X和H100,还涉及GH200(对于其中一项测试)——与低级测试不同,这次Nvidia GPU是更快的SXM变体。Chips and Cheese进行了两项测试,使用Mixtral 8-7B和LLaMA3-70B。

Mixtral的结果显示了各种配置选项可以产生多大的差异——例如,单个H100 80GB卡内存不足,而没有KVcache的MI300X也表现不佳。GH200做得更好,尽管MI300X仍然领先,而两个H100 SXM5 GPU的性能提高了约40%。(要使用所选设置运行模型,需要两个H100 GPU。)
在这里插入图片描述

转向LLaMA3-70B的结果,我们看到了一组不同的硬件。这一次,即使是两个H100 GPU也因为内存不足而无法运行模型(输入和输出长度设置为2048,使用FP16)。单个H100使用INT8在相同的2048输入/输出长度设置下也表现相当差。将长度减少到128大大提高了性能,尽管仍然远远落后于MI300X。两个H100 GPU使用INT8,输入/输出长度为128,终于开始看起来至少有些竞争力。
在这里插入图片描述

对于拥有192GB巨大内存的MI300X,它能够使用FP16运行2048和128长度,后者提供了4,858的最佳结果。很遗憾,这里没有Nvidia的H200的更多测试结果,理论上应该会比H100结果好些。

AMD的意图很明显,CDNA 3架构和MI300X是朝着正确方向迈出的一大步。基于这些结果,有些工作负载MI300X不仅与H100竞争,而且可以声称性能冠军。当然,由于硬件可用性有限,我们希望看到更多这类基准测试——独立测试——以让所有硬件都能发挥出最佳性能。
在这里插入图片描述

MI300X的原始缓存、带宽和计算结果看起来非常好。但这些GPU也是为扩展和大型安装而设计的,所以即使单个MI300X明显击败单个H100(或H200,就此而言),这并不意味着当数十、数百甚至数千个GPU协同工作时情况会如何变化。软件和生态系统也很重要,Nvidia过去在CUDA方面一直领先。关于AMD MI300X和Nvidia H100的最终结论还未确定,这里还有一些待解答的问题…

**赋创(EMPOWERX)**作为高性能计算领域的先锋,一直致力于推动技术创新,我们会及时关注最前沿的科技动态,为客户提供高效、可靠的计算解决方案。

如果您对服务器市场有进一步的问题或需要更详细的信息,请随时私信我们【4006-997-916 / 0755-86936235】。​

  • 24
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值