NVIDIA GTC 2025 大会展现了颠覆多个领域 AI 开发的诸多创新成果,涵盖了人工智能硬件、软件及战略合作伙伴关系的重大突破。本届大会最引人瞩目的亮点无疑是数据中心 GPU 及其未来产品路线图。基于 Blackwell Ultra 架构打造的 B300 GPU,是 NVIDIA 迄今为止最强大的 AI 加速器,其性能相较于现有 Blackwell 系列产品提升了 1.5 倍。
数据中心 GPU 及性能突破
与以往发布的 GPU 相比,B300 的性能提升令人震撼。(注:标有“”的数值为大致估算,并非 NVIDIA 官方数据)
Blackwell Ultra B300与其Blackwell系列同类产品一样,引入了新的精度格式,FP4张量核心提供了令人印象深刻的30 PFLOPS性能,而FP6/FP8则提供了15 PFLOPS的性能,相比当前的H200s产品,FP8计算能力提升了约7.5倍,而整体FP8性能提升了近4倍。
NVIDIA的下一步计划是推出Vera Rubin GPU,预计将于明年发布。Vera Rubin的性能预计将达到Blackwell Ultra的3.3倍,实现50 PFLOPS的密集FP4计算能力,远超B300的15 PFLOPS。同时搭配ConnectX-9和NVLink-6技术,将带宽翻倍。此外,Vera Rubin GPU还将采用HBM4内存,内存带宽提升1.6倍。从Grace向Vera CPU的转变也将显著增强CPU与GPU之间的互连,最高速率可达1.8 TB/s。
NVIDIA还预告了将于2027年下半年推出的Rubin Ultra GPU。Rubin Ultra GPU的目标是将Vera Rubin的性能翻倍,每个 GPU 实现惊人的 100 PFLOPS 密集 FP4 运算,同时配备 1TB 的先进 HBM4e 内存。
NVIDIA DGX 系统——DGX Spark
NVIDIA在今年的CES上展示了其DGX Spark系统,该系统以Project Digits为名推出。DGX Spark面向AI开发者、研究人员、数据科学家和学生,采用全新的GB10 Blackwell芯片,并配备 128 GB 统一内存。NVIDIA声称该系统可提供高达1000 AI TOPS的性能,其实际运算能力相当于 RTX 5070。此外,Spark 平台还集成了 ConnectX 7 SmartNIC,提供 2 个 200Gb 链路以优化数据传输。
NVIDIA DGX 系统——DGX Station
NVIDIA还推出了更新版的DGX Station,定位为面向企业应用的终极桌面AI超级计算机,搭载GB300 Grace Blackwell Ultra芯片。DGX Station配备784GB的统一系统内存,能够实现20 petaflops的密集FP4 AI运算性能,并内置NVIDIA ConnectX 8 SuperNIC,实现800 Gb/s的网络连接,确保高性能网络满足其强大的计算需求。
专业级 GPU —— NVIDIA RTX Pro Blackwell
NVIDIA 全面升级了其专业 GPU 产品线,推出了 RTX Pro Blackwell 系列,旨在加速 AI、图形及仿真工作负载,涵盖台式工作站、移动系统和服务器领域。旗舰产品 RTX Pro 6000 Blackwell 配备业界领先的 96GB GPU 内存,并提供高达 4,000 TOPS 的 AI 性能,从而实现实时光线追踪、快速 AI 推理和先进图形工作流程。
这些 GPU 集成了众多革命性技术:
●Streaming Multiprocessor 使吞吐量提升 1.5 倍;
●第四代 RT 核心性能提升至前代的两倍;
●第五代 Tensor 核心支持新 FP4 精度;
●PCIe Gen 5 支持实现带宽翻倍;
●DisplayPort 2.1 兼容,满足极高分辨率显示需求;
服务器版还引入 NVIDIA Confidential Computing 技术,保障 AI 工作负载安全。
行业专业人士报告了在实际应用中的显著性能提升。Foster + Partners的RTX A6000光线追踪速度提升了5倍,GE HealthCare在医疗重建算法的 GPU 处理时间缩短了2倍,汽车制造商Rivian利用新GPU实现了前所未有的VR视觉质量,SoftServe在处理大型AI模型(如Llama 3.3-70B)时生产力提升了3倍。最令人印象深刻的是,皮克斯表示,其99%的制作镜头现在可以在单个GPU的96GB内存中完成。
RTX Pro 6000 Blackwell服务器版将这些功能应用到了数据中心环境,采用被动冷却设计,支持7x24小时运行。与上代硬件相比,该服务器PRO版在大型语言模型推理中吞吐量提高了5倍,基因组测序速度提高了7倍,文本到视频生成速度提高了3.3倍,推荐系统推理和渲染速度提高了2倍。这些GPU首次同时支持vGPU和多实例GPU(MIG)技术,允许将每张卡划分为最多四个完全隔离的实例,从而最大限度地提升不同工作负载的资源利用率。这些GPU的桌面版本将于4月上市,服务器版将于5月推出,基于OEM的笔记本电脑将于6月上市。
NVIDIA Photonics:革新 AI 数据中心光互联
NVIDIA Photonics是一项旨在变革AI数据中心内光网络的技术创新。通过将传统的插拔式收发器替换为与交换 ASIC 共封装的光学引擎,从而降低功耗并简化数据连接。借助台积电的光学引擎优化技术,配合微环调制器、高效激光器及可拆卸光纤连接器,新一代 Photonics 平台实现了最高 3.5 倍的能效提升、10 倍的系统韧性,并比传统方案快 1.3 倍的部署速度。NVIDIA 还详细介绍了与先进封装及光学组件制造领军企业的深度合作如何助力实现这一系列性能提升。
借助这些新发展,NVIDIA展示了三款采用200G SerDes的新型交换机,分别属于Quantum-X和Spectrum-X交换机系列。
●Quantum-X Infiniband 系列中的 Quantum 3450-LD,提供 144 个 800G 或 576 个 200G 端口,总带宽达 115 Tb/s;
●Spectrum-X Ethernet 系列产品涵盖从紧凑型 Spectrum SN6810(128 个 800G 或 512 个 200G 端口)到高密度 Spectrum SN6800(512 个 800G 与 2048 个 200G 端口)的多种配置。
所有交换机均采用液冷技术,确保在高性能运行下保持最佳效率。预计 Quantum-X Photonics Infiniband 交换机将于今年晚些时候上市,而 Spectrum-X Photonics 以太网交换机则计划于 2026 年由主流基础设施及系统供应商推出。
Nvidia Dynamo:硬件与软件的深度融合
为充分发挥新一代 Blackwell GPU 的计算潜力,NVIDIA 推出了 Dynamo ——一款专为大规模 AI 模型部署而设计的开源推理平台。Dynamo 采用独特的分布式和解耦架构,能够将单个查询扩展到多 GPU 协同处理,从而大幅加速推理工作负载。通过智能分配输入与输出 Token 的计算任务,并借助 NVIDIA NVLink 互联技术,Dynamo 对深度推理密集型模型(如 DeepSeek R1)实现了最高 30 倍的性能提升。
基于Llama开发的全新Llama Nemotron推理模型系列,提供Nano、Super、Ultra版本。其中Super 49B版本在生成速度和AI智能体任务的准确性两个维度超过DeepSeek-R1,吞吐量达到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍。
此外,在 Hopper GPU 上,Dynamo 甚至无需额外硬件就能将现有大型语言模型(例如 LLAMA)的吞吐量翻倍,从而有效提升 Token 生成速度和 AI 工厂的收益潜力。目前,Dynamo 已在 GitHub 开源,并支持 PyTorch、BLM、SGLang 和 TensorRT 等主流后端。
NVIDIA AI-Q:下一代智能代理系统
NVIDIA 同时推出了 AI-Q(发音为“I-Q”),该框架旨在实现 AI 代理与大规模企业数据及工具的无缝连接。作为一个开源蓝图,AI-Q 使代理能够跨文本、图像、视频等多种数据类型进行查询和推理,并利用网络搜索及其他代理等外部工具。
其核心组件AgentIQ 工具包 今日已在 GitHub 上发布,该开源软件库可简化多代理系统的连接、性能剖析和优化,帮助企业构建高效的数字化工作团队。AgentIQ 能与 CrewAI、LangGraph、Llama Stack、Microsoft Azure AI Agent Service 和 Letta 等现有多代理框架无缝集成,支持开发者逐步采用或一次性整合。
与此同时,NVIDIA 正与领先的数据存储供应商合作,打造集成 NVIDIA NeMo Retriever、AI-Q 蓝图、Blackwell GPU、Spectrum X 网络和 Bluefield DPU 的 AI 数据平台参考架构,以实现接近实时的数据处理和快速知识检索,为 AI 代理提供关键的商业智能支持。AI-Q 将于四月开始向开发者开放体验。
NVIDIA Mission Control:统一管理平台
在全面的软件战略基础上,NVIDIA 推出了 Mission Control——业界首个统一运营和编排软件平台,旨在自动化管理 AI 数据中心及工作负载的复杂流程。Mission Control 不仅能实现从资源配置、监控到故障诊断的端到端自动化管理,还支持在基于 Blackwell 的系统上无缝切换训练与推理工作负载,使企业能够根据动态优先级灵活调整集群资源。整合了 NVIDIA 收购的 Run:ai 技术后,Mission Control 可将基础设施利用率提高最多 5 倍,并在作业恢复上比传统手动方法快达 10 倍。
该软件为现代AI工作负载提供了几个关键的操作优势,包括简化的集群设置、SUNK(Slurm和Kubernetes)工作负载的无缝编排、开发者可选控件的节能电源配置,以及自主作业恢复能力。其他功能包括可定制的绩效仪表板、按需健康检查和楼宇管理系统集成,实现更高效的冷却与电源管理。
目前,Mission Control 已适用于 DGX GB200 与 DGX B200 系统,预计今年晚些时候将支持 DGX GB300、DGX B300 和 GB300 NVL72 系统。对于希望开展 AI 基础设施管理的企业,NVIDIA 还宣布 Base Command Manager 软件将很快对每个系统(最多支持 8 个加速器,无论集群规模如何)免费开放。
结语
NVIDIA GTC 2025 为 AI 技术带来了颠覆性飞跃,在硬件、软件及基础设施层面均取得重大突破。从基于 Blackwell Ultra 架构的强大 B300 GPU,到革命性的 DGX Spark 与 DGX Station 系统,再到 NVIDIA Photonics、Dynamo 推理软件、AI-Q 智能代理框架和 Mission Control 统一管理平台的推出,NVIDIA 正不断重塑 AI 计算的边界,从而进一步巩固其在行业内的先地位。
然而,这仅仅是冰山一角。GTC 大会上还有更多创新与见解有待探索。请继续关注我们,后续将继续为您带来更多深入报道。