炸场MLPerf!NVIDIA 72颗B200狂飙30倍性能,AMD新卡能否撼动AI芯片王座?

MLPerf Inference v5.0性能基准测试结果出炉,GPU巨头们提交了由其最新芯片驱动的最新成绩。正如我们过去所见,性能不仅取决于GPU原始算力,软件优化和对新AI生态系统及工作负载的支持同样至关重要。
在这里插入图片描述
MLPerf Inference是同行评审的推理性能行业基准。它以架构中立,代表性和可复制的方式提供机器学习(ML)系统性能基准测试。MLPerf通过标准化测试为机器学习系统提供公平比较。虽然提交者使用自有软硬件,但底层神经网络必须一致。目前服务器端共有11项基准测试,今年新增3项。

新增测试包括两项LLM评估。广受欢迎的Llama2 70B已是现有基准,但联盟希望模拟现代聊天机器人应有的响应速度,因此推出"Llama2-70B交互式"测试,要求系统必须始终保持每秒至少25个令牌的输出速度,且响应延迟不超过450毫秒。

为应对"自主AI"(具备复杂任务推理能力的网络)的兴起,MLPerf选择测试具备宽上下文窗口(128,000令牌,是Llama2 70B的30倍以上)的Llama3.1 405B模型。第三项新增RGAT测试则聚焦图注意力网络,需对包含科学论文关系的2TB数据集进行近3000个主题分类。

NVIDIA Blackwell创下新纪录

英伟达通过自身及戴尔、谷歌,超微等15家合作伙伴的提交结果继续主导MLPerf。其Hopper架构初代H100和内存增强版H200均表现强劲。

GB200 NVL72系统——通过连接72颗NVIDIA Blackwell GPU形成一个巨型统一GPU。在Llama 3.1 405B基准测试中实现了比本次NVIDIA H200 NVL8高达30倍的吞吐量提升。这一壮举是通过每颗GPU性能提升超过三倍,以及NVIDIA NVLink互连域规模扩大9倍来实现的。另外,超微8卡B200系统令牌速度是思科8卡H200系统的近4倍。
在这里插入图片描述
尽管多家公司通过MLPerf基准测试来评估硬件性能,但本轮仅有NVIDIA及其合作伙伴提交并公布了Llama 3.1 405B基准测试结果。

实际生产部署的推理应用通常会面临两项关键延迟指标约束。第一是首次令牌时间(TTFT),即用户向大语言模型提交查询后开始看到响应所需时长。第二是每个输出令牌时间(TPOT),即令牌传递至用户的速度。

新版Llama 2 70B交互式基准测试的TPOT缩短5倍,TTFT降低4.4倍——模拟了更灵敏的用户体验。在这项测试中,NVIDIA使用配备8个Blackwell GPU的DGX B200系统,较8个H200 GPU系统性能提升了3倍,为这个更具挑战性的Llama 2 70B基准测试版本设定了高标准。

Blackwell架构与其优化软件栈的结合实现了前所未有的推理性能,为AI工厂提供更高智能、更大吞吐量和更快令牌速率铺平道路。

基于此,我们首先聚焦这位再次领跑的绿色巨人,其最新Blackwell GPU(如B200)创下了令人瞩目的记录。

搭载72颗B200芯片的GB200 NVL72机架在Llama 3.1 405B基准测试中领先业界,与上一代NVIDIA H200相比,性能吞吐量提高了30倍。NVIDIA在Llama 70 B基准测试中还发现,8 GPU B200系统与8 GPU H200系统相比,性能提高了两倍。B200不仅HBM内存比H200多36%,更重要的是支持4位精度计算(Hopper为8位),更低精度计算单元体积更小,可集成更多计算核心,显著提升AI性能。
在这里插入图片描述

AMD大内存加持

AMD将新Instinct MI325X定位为H200竞品。该GPU延续MI300架构,但HBM内存提升至256GB(+33%),带宽达6TB/s(+13%)。大内存有助于大型模型可单卡运行,避免多卡通信开销,降低延迟。
在这里插入图片描述

通过软件优化,MI325X在DeepSeek-R1推理速度提升8倍。与H200系统不相上下,更大的内存容量确实有助于大规模的LLM。在Llama2 70B测试中,8卡MI325X系统性能达H200系统的93-97%。图像生成任务差距约10%。其合作伙伴Mangoboost通过四机分布式计算,在Llama2 70B测试实现近4倍性能提升。
在这里插入图片描述

基准测试结果还包含经过持续优化的Hopper H200系列。与去年相比,该平台推理性能提升达50%,这对持续依赖该平台的企业而言意义重大。

考虑到NVIDIA将于今年晚些时候推出B300 Ultra平台,AMD需在硬件和软件领域持续发力。

Intel与谷歌表现

Intel继续主打纯CPU方案,首次提交的Xeon 6(原Granite Rapids,3nm工艺)双路系统图像识别性能为40,285样本/秒,约等于双H100系统的1/3。相比2024年10月的Xeon 5,新CPU性能提升约80%,目标检测和医学影像处理提升更大。自2021年Xeon 3以来,Resnet性能累计提升11倍。值得注意的是,Intel的H100竞品Gaudi 3再次缺席MLPerf测试,英特尔似乎已经退出了AI加速器芯片之战。
在这里插入图片描述
谷歌TPU v6e芯片仅参与图像生成测试,4-TPU系统每秒查询5.48次,比使用其前身TPU v5 e的类似计算机提高了2.5倍。但与同规模H100系统基本

总结

从市场角度看,NVIDIA的Blackwell系列已进入量产阶段,200多种配置可供选择,覆盖从数据中心到边缘计算的广泛场景。GB200 NVL72这样的系统被视为“AI工厂”的核心,源源不断将海量数据转化为实时智能。而AMD则通过每年更新Instinct系列的策略加速追赶,MI325X已于2025年初开始发货,后续MI355X也做出了提前预告。

这场GPU性能竞赛的背后,是AI模型规模的快速膨胀和应用场景的多样化需求。无论是Llama 3.1 405B这样拥有4050亿参数的巨型模型,还是Stable Diffusion XL这样的生成任务,GPU的内存容量、带宽和计算能力都成为决定性因素。AI推理性能的提升已不再仅依赖硬件堆砌,软件优化与架构创新同样不可或缺。
在这里插入图片描述

在LoongIDE开发环境中为龙芯1B200芯片编写SPI设备驱动程序,首先需要对龙芯1x系列芯片的硬件接口和编程接口有所了解。《龙芯1B1C驱动程序开发指南》这本书将为你提供必需的理论知识和实践指导,尤其针对SPI接口的使用和编程。 参考资源链接:[龙芯1B1C驱动程序开发指南](https://wenku.csdn.net/doc/2qcnakr0nt?spm=1055.2569.3001.10343) 步骤如下: 1. **环境搭建**:首先确保你的LoongIDE安装正确,并且已经安装了适用于龙芯1B200芯片的交叉编译工具链。 2. **驱动程序模板**:根据《龙芯1B1C驱动程序开发指南》中提供的SPI驱动模型,创建一个新的驱动程序文件。通常,SPI驱动会包含初始化、发送/接收数据、和清理资源等基本功能。 3. **配置SPI**:在驱动程序中编写初始化代码,配置SPI控制器的工作模式、速率、位宽和主从模式。例如: ```c void spi_init() { // 配置SPI控制器 // 设置SPI时钟频率、工作模式等 } ``` 4. **数据传输**:实现数据的发送和接收。通常,会提供一个发送函数和一个接收函数。比如: ```c int spi_send_data(uint8_t *data, uint32_t size) { // 发送数据到SPI设备 // 等待传输完成 } int spi_receive_data(uint8_t *buffer, uint32_t size) { // 从SPI设备接收数据 // 等待接收完成 } ``` 5. **资源清理**:在驱动程序卸载时,释放所有已分配的资源。比如: ```c void spi_exit() { // 关闭SPI接口 // 清理相关资源 } ``` 6. **编译和调试**:将编写好的驱动程序集成到你的应用程序中,进行编译和调试。确保在LoongIDE中设置正确的编译参数和链接脚本。 以上步骤基于理论知识,具体实现时还需要根据实际的硬件和需求进行相应的调整。为了更好地掌握SPI驱动开发的细节,强烈建议参考《龙芯1B1C驱动程序开发指南》中关于SPI驱动的章节,它将为你提供详细的函数定义、数据结构以及硬件操作的案例。 通过实践上述步骤和代码示例,你将能够为龙芯1B200芯片编写出基本的SPI设备驱动程序。而深入学习《龙芯1B1C驱动程序开发指南》中的其他章节内容,将使你能够开发更加复杂和高效的驱动程序。 参考资源链接:[龙芯1B1C驱动程序开发指南](https://wenku.csdn.net/doc/2qcnakr0nt?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值