炸场MLPerf！NVIDIA 72颗B200狂飙30倍性能，AMD新卡能否撼动AI芯片王座？

最新推荐文章于 2025-05-13 20:33:05 发布

赋创EMPOWER X

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量668

点赞数 13

文章标签：人工智能深度学习图像处理服务器 ai

本文链接：https://blog.csdn.net/weixin_50197960/article/details/146979271

版权

MLPerf Inference v5.0性能基准测试结果出炉，GPU巨头们提交了由其最新芯片驱动的最新成绩。正如我们过去所见，性能不仅取决于GPU原始算力，软件优化和对新AI生态系统及工作负载的支持同样至关重要。
在这里插入图片描述
MLPerf Inference是同行评审的推理性能行业基准。它以架构中立，代表性和可复制的方式提供机器学习（ML）系统性能基准测试。MLPerf通过标准化测试为机器学习系统提供公平比较。虽然提交者使用自有软硬件，但底层神经网络必须一致。目前服务器端共有11项基准测试，今年新增3项。

新增测试包括两项LLM评估。广受欢迎的Llama2 70B已是现有基准，但联盟希望模拟现代聊天机器人应有的响应速度，因此推出"Llama2-70B交互式"测试，要求系统必须始终保持每秒至少25个令牌的输出速度，且响应延迟不超过450毫秒。

为应对"自主AI"（具备复杂任务推理能力的网络）的兴起，MLPerf选择测试具备宽上下文窗口（128,000令牌，是Llama2 70B的30倍以上）的Llama3.1 405B模型。第三项新增RGAT测试则聚焦图注意力网络，需对包含科学论文关系的2TB数据集进行近3000个主题分类。

NVIDIA Blackwell创下新纪录

英伟达通过自身及戴尔、谷歌，超微等15家合作伙伴的提交结果继续主导MLPerf。其Hopper架构初代H100和内存增强版H200均表现强劲。

GB200 NVL72系统——通过连接72颗NVIDIA Blackwell GPU形成一个巨型统一GPU。在Llama 3.1 405B基准测试中实现了比本次NVIDIA H200 NVL8高达30倍的吞吐量提升。这一壮举是通过每颗GPU性能提升超过三倍，以及NVIDIA NVLink互连域规模扩大9倍来实现的。另外，超微8卡B200系统令牌速度是思科8卡H200系统的近4倍。
在这里插入图片描述
尽管多家公司通过MLPerf基准测试来评估硬件性能，但本轮仅有NVIDIA及其合作伙伴提交并公布了Llama 3.1 405B基准测试结果。

实际生产部署的推理应用通常会面临两项关键延迟指标约束。第一是首次令牌时间（TTFT），即用户向大语言模型提交查询后开始看到响应所需时长。第二是每个输出令牌时间（TPOT），即令牌传递至用户的速度。

新版Llama 2 70B交互式基准测试的TPOT缩短5倍，TTFT降低4.4倍——模拟了更灵敏的用户体验。在这项测试中，NVIDIA使用配备8个Blackwell GPU的DGX B200系统，较8个H200 GPU系统性能提升了3倍，为这个更具挑战性的Llama 2 70B基准测试版本设定了高标准。

Blackwell架构与其优化软件栈的结合实现了前所未有的推理性能，为AI工厂提供更高智能、更大吞吐量和更快令牌速率铺平道路。

基于此，我们首先聚焦这位再次领跑的绿色巨人，其最新Blackwell GPU（如B200）创下了令人瞩目的记录。

搭载72颗B200芯片的GB200 NVL72机架在Llama 3.1 405B基准测试中领先业界，与上一代NVIDIA H200相比，性能吞吐量提高了30倍。NVIDIA在Llama 70 B基准测试中还发现，8 GPU B200系统与8 GPU H200系统相比，性能提高了两倍。B200不仅HBM内存比H200多36%，更重要的是支持4位精度计算（Hopper为8位），更低精度计算单元体积更小，可集成更多计算核心，显著提升AI性能。
在这里插入图片描述

AMD大内存加持

AMD将新Instinct MI325X定位为H200竞品。该GPU延续MI300架构，但HBM内存提升至256GB（+33%），带宽达6TB/s（+13%）。大内存有助于大型模型可单卡运行，避免多卡通信开销，降低延迟。
在这里插入图片描述

通过软件优化，MI325X在DeepSeek-R1推理速度提升8倍。与H200系统不相上下，更大的内存容量确实有助于大规模的LLM。在Llama2 70B测试中，8卡MI325X系统性能达H200系统的93-97%。图像生成任务差距约10%。其合作伙伴Mangoboost通过四机分布式计算，在Llama2 70B测试实现近4倍性能提升。
在这里插入图片描述

基准测试结果还包含经过持续优化的Hopper H200系列。与去年相比，该平台推理性能提升达50%，这对持续依赖该平台的企业而言意义重大。

考虑到NVIDIA将于今年晚些时候推出B300 Ultra平台，AMD需在硬件和软件领域持续发力。

Intel与谷歌表现

Intel继续主打纯CPU方案，首次提交的Xeon 6（原Granite Rapids，3nm工艺）双路系统图像识别性能为40,285样本/秒，约等于双H100系统的1/3。相比2024年10月的Xeon 5，新CPU性能提升约80%，目标检测和医学影像处理提升更大。自2021年Xeon 3以来，Resnet性能累计提升11倍。值得注意的是，Intel的H100竞品Gaudi 3再次缺席MLPerf测试，英特尔似乎已经退出了AI加速器芯片之战。
在这里插入图片描述
谷歌TPU v6e芯片仅参与图像生成测试，4-TPU系统每秒查询5.48次，比使用其前身TPU v5 e的类似计算机提高了2.5倍。但与同规模H100系统基本

总结

从市场角度看，NVIDIA的Blackwell系列已进入量产阶段，200多种配置可供选择，覆盖从数据中心到边缘计算的广泛场景。GB200 NVL72这样的系统被视为“AI工厂”的核心，源源不断将海量数据转化为实时智能。而AMD则通过每年更新Instinct系列的策略加速追赶，MI325X已于2025年初开始发货，后续MI355X也做出了提前预告。

这场GPU性能竞赛的背后，是AI模型规模的快速膨胀和应用场景的多样化需求。无论是Llama 3.1 405B这样拥有4050亿参数的巨型模型，还是Stable Diffusion XL这样的生成任务，GPU的内存容量、带宽和计算能力都成为决定性因素。AI推理性能的提升已不再仅依赖硬件堆砌，软件优化与架构创新同样不可或缺。
在这里插入图片描述