MLPerf Inference v5.0性能基准测试结果出炉,GPU巨头们提交了由其最新芯片驱动的最新成绩。正如我们过去所见,性能不仅取决于GPU原始算力,软件优化和对新AI生态系统及工作负载的支持同样至关重要。
MLPerf Inference是同行评审的推理性能行业基准。它以架构中立,代表性和可复制的方式提供机器学习(ML)系统性能基准测试。MLPerf通过标准化测试为机器学习系统提供公平比较。虽然提交者使用自有软硬件,但底层神经网络必须一致。目前服务器端共有11项基准测试,今年新增3项。
新增测试包括两项LLM评估。广受欢迎的Llama2 70B已是现有基准,但联盟希望模拟现代聊天机器人应有的响应速度,因此推出"Llama2-70B交互式"测试,要求系统必须始终保持每秒至少25个令牌的输出速度,且响应延迟不超过450毫秒。
为应对"自主AI"(具备复杂任务推理能力的网络)的兴起,MLPerf选择测试具备宽上下文窗口(128,000令牌,是Llama2 70B的30倍以上)的Llama3.1 405B模型。第三项新增RGAT测试则聚焦图注意力网络,需对包含科学论文关系的2TB数据集进行近3000个主题分类。
NVIDIA Blackwell创下新纪录
英伟达通过自身及戴尔、谷歌,超微等15家合作伙伴的提交结果继续主导MLPerf。其Hopper架构初代H100和内存增强版H200均表现强劲。
GB200 NVL72系统——通过连接72颗NVIDIA Blackwell GPU形成一个巨型统一GPU。在Llama 3.1 405B基准测试中实现了比本次NVIDIA H200 NVL8高达30倍的吞吐量提升。这一壮举是通过每颗GPU性能提升超过三倍,以及NVIDIA NVLink互连域规模扩大9倍来实现的。另外,超微8卡B200系统令牌速度是思科8卡H200系统的近4倍。
尽管多家公司通过MLPerf基准测试来评估硬件性能,但本轮仅有NVIDIA及其合作伙伴提交并公布了Llama 3.1 405B基准测试结果。
实际生产部署的推理应用通常会面临两项关键延迟指标约束。第一是首次令牌时间(TTFT),即用户向大语言模型提交查询后开始看到响应所需时长。第二是每个输出令牌时间(TPOT),即令牌传递至用户的速度。
新版Llama 2 70B交互式基准测试的TPOT缩短5倍,TTFT降低4.4倍——模拟了更灵敏的用户体验。在这项测试中,NVIDIA使用配备8个Blackwell GPU的DGX B200系统,较8个H200 GPU系统性能提升了3倍,为这个更具挑战性的Llama 2 70B基准测试版本设定了高标准。
Blackwell架构与其优化软件栈的结合实现了前所未有的推理性能,为AI工厂提供更高智能、更大吞吐量和更快令牌速率铺平道路。
基于此,我们首先聚焦这位再次领跑的绿色巨人,其最新Blackwell GPU(如B200)创下了令人瞩目的记录。
搭载72颗B200芯片的GB200 NVL72机架在Llama 3.1 405B基准测试中领先业界,与上一代NVIDIA H200相比,性能吞吐量提高了30倍。NVIDIA在Llama 70 B基准测试中还发现,8 GPU B200系统与8 GPU H200系统相比,性能提高了两倍。B200不仅HBM内存比H200多36%,更重要的是支持4位精度计算(Hopper为8位),更低精度计算单元体积更小,可集成更多计算核心,显著提升AI性能。
AMD大内存加持
AMD将新Instinct MI325X定位为H200竞品。该GPU延续MI300架构,但HBM内存提升至256GB(+33%),带宽达6TB/s(+13%)。大内存有助于大型模型可单卡运行,避免多卡通信开销,降低延迟。
通过软件优化,MI325X在DeepSeek-R1推理速度提升8倍。与H200系统不相上下,更大的内存容量确实有助于大规模的LLM。在Llama2 70B测试中,8卡MI325X系统性能达H200系统的93-97%。图像生成任务差距约10%。其合作伙伴Mangoboost通过四机分布式计算,在Llama2 70B测试实现近4倍性能提升。
基准测试结果还包含经过持续优化的Hopper H200系列。与去年相比,该平台推理性能提升达50%,这对持续依赖该平台的企业而言意义重大。
考虑到NVIDIA将于今年晚些时候推出B300 Ultra平台,AMD需在硬件和软件领域持续发力。
Intel与谷歌表现
Intel继续主打纯CPU方案,首次提交的Xeon 6(原Granite Rapids,3nm工艺)双路系统图像识别性能为40,285样本/秒,约等于双H100系统的1/3。相比2024年10月的Xeon 5,新CPU性能提升约80%,目标检测和医学影像处理提升更大。自2021年Xeon 3以来,Resnet性能累计提升11倍。值得注意的是,Intel的H100竞品Gaudi 3再次缺席MLPerf测试,英特尔似乎已经退出了AI加速器芯片之战。
谷歌TPU v6e芯片仅参与图像生成测试,4-TPU系统每秒查询5.48次,比使用其前身TPU v5 e的类似计算机提高了2.5倍。但与同规模H100系统基本
总结
从市场角度看,NVIDIA的Blackwell系列已进入量产阶段,200多种配置可供选择,覆盖从数据中心到边缘计算的广泛场景。GB200 NVL72这样的系统被视为“AI工厂”的核心,源源不断将海量数据转化为实时智能。而AMD则通过每年更新Instinct系列的策略加速追赶,MI325X已于2025年初开始发货,后续MI355X也做出了提前预告。
这场GPU性能竞赛的背后,是AI模型规模的快速膨胀和应用场景的多样化需求。无论是Llama 3.1 405B这样拥有4050亿参数的巨型模型,还是Stable Diffusion XL这样的生成任务,GPU的内存容量、带宽和计算能力都成为决定性因素。AI推理性能的提升已不再仅依赖硬件堆砌,软件优化与架构创新同样不可或缺。