Llama-Nemotron 超越 DeepSeek R1 成开源第一？

九章云极DataCanvas

已于 2025-05-07 14:38:23 修改

阅读量999

点赞数 20

分类专栏：技术干货文章标签： llama 人工智能

于 2025-05-07 10:54:47 首次发布

本文链接：https://blog.csdn.net/weixin_46880696/article/details/147756211

版权

技术干货专栏收录该内容

30 篇文章

订阅专栏

从2025年3月起，英伟达分阶段推出Llama-Nemotron家族的不同规格模型。Nano和Super版本在3月先行亮相，而Ultra版本作为旗舰型号于4月8日发布。Ultra版本的发布直接挑战了同期Meta的Llama 4系列，仅用三天时间便在多项基准测试中超越后者。

如需技术合作或业务咨询，请关注公众号：九章云极AlayaNeW
或者请移步个人vx： alayanew

原文阅读：https://mp.weixin.qq.com/s/HlMuViKehGc0A1CkYrpdxA

截至 2025 年 4 月，其旗舰模型 LN-Ultra 荣膺最 “智能” 开源模型称号。以253B参数（仅为DeepSeek-R1的1/3参数量）在 GPQA-Diamond（76.01分）、IFEval（89.45分）等关键基准中超过DeepSeek-R1，在单8xH100节点上的推理吞吐量达DeepSeek-R1的4倍。

5月5日，英伟达发布了技术报告，公开了模型从代码到数据集的一切，诚意满满：

完整模型权重：****三个尺寸任选择

训练数据集：****包含3300万条数学/代码/科学问答数据

全套工具链：****NeMo、Megatron-LM等开发神器

论文标题：Llama-Nemotron: Efficient Reasoning Models
arXiv 地址：https://arxiv.org/pdf/2505.00949
代码地址：https://github.com/NVIDIA/NeMo
数据集：https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

性能表现

实力惊艳行业

在权威机构 Artificial Analysis 截止2025年4月测评中，Llama-Nemotron 系列模型表现堪称惊艳（如图 1），超越DeepSeek R1，在开源模型中排到了第1。

与其他顶尖推理模型相比，LN-Ultra 在多个推理和非推理基准测试中都能拔得头筹。像是在图 2 展示的科学推理（GPQA Diamond）、指令遵循（IFEval）、工具调用（BFCLv2）等测试场景下，LN-Ultra 的准确率远超同类开源模型，甚至比一些需要更高硬件配置的模型表现还要出色，彰显了它强大的实力。

高效推理

创新优化框架

为了实现高效推理，LN-Super 和 LN-Ultra 模型借助 Puzzle 框架进行了深度优化。Puzzle 框架是一种神经架构搜索（NAS）框架，它能在实际部署的约束条件下，将大语言模型转化为硬件高效的变体（参考图 3）。

它通过对 Llama 3 系列模型应用块级局部蒸馏，构建出可供选择的 transformer 块库。在这个过程中，一些块会去除注意力机制，减少计算量和内存消耗；同时，还会调整前馈网络（FFN）的维度，实现不同粒度的压缩。之后，利用混合整数规划（MIP）求解器，从块库中为每一层选择合适的块，组装成完整的模型，以达到在给定约束条件下的最优配置。

对于 LN-Ultra 模型，还引入了 FFN Fusion 技术。在 Puzzle 框架去除部分注意力层后，模型中会出现连续的 FFN 块，FFN Fusion 技术会将这些连续的 FFN 块替换为更少但更宽的 FFN 层，这些层可以并行执行，从而减少了顺序步骤，提高了计算利用率，显著降低了推理延迟。

经过一系列优化，LN-Super 和 LN-Ultra 在推理效率上有了极大提升。LN-Super 在单 NVIDIA H100 GPU（张量并行度为 1）上运行时，相比 Llama 3.3 - 70B-Instruct，吞吐量提升了 5 倍；LN-Ultra 针对 8 GPU 的 H100 节点进行优化，相比 Llama 3.1 - 405B-Instruct，延迟降低了 1.71 倍。

从图 4 可以直观地看到，在不同设置下，LN-Ultra 在 GPQA-Diamond 准确率和处理吞吐量上都优于 DeepSeek-R1 和 Llama 3.1 - 405B，在精度 - 吞吐量帕累托曲线上占据优势。

报告通过详实的表格与图表，展示了各模型在不同任务中的表现：

LN-Nano（8B）：手机都能跑，在推理和聊天基准上表现出色，尤其是在小数据集上；
LN-Super（49B）：全能选手，在推理和聊天基准上都具有竞争力，可以同时满足结构化推理和非结构化聊天的需求；
LN-Ultra（253B）：科研神器，在推理和聊天基准上均优于其他公开模型，8块H100显卡高效运行。

训练流程

复杂严谨、合成数据赋能

Llama-Nemotron 系列模型的训练过程复杂且严谨，主要分为五个阶段：

架构优化阶段：运用神经架构搜索（NAS）提升推理效率，并引入 FFN Fusion 技术；
知识强化阶段：通过知识蒸馏与持续预训练，增强块间兼容性，弥补架构优化带来的质量损失；
监督微调阶段：基于标准指令数据与强大教师模型（如 DeepSeek-R1）的推理轨迹进行训练，赋予模型多步推理能力，并学会依据 “detailed thinking on/off” 指令控制推理行为；
强化学习阶段：针对 LN-Ultra 模型，利用复杂数学和 STEM 数据集，通过 Group Relative Policy Optimization（GRPO）算法，进一步提升科学推理能力；
对齐优化阶段：聚焦指令遵循与人类偏好优化，完成模型的最后校准。

训练过程中，数据质量与多样性至关重要。团队精心构建合成数据集，覆盖推理与非推理数据。以数学推理数据为例，从 Art of Problem Solving（AoPS）社区论坛采集大量数学问题，经问题提取、分类、答案提取、基准净化等处理，再借助 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成多种解决方案，经严格筛选后，确保数据的高质量与有效性。

推理切换

动态****满足多元需求

Llama-Nemotron 系列模型一大创新点是支持动态推理切换。用户在推理时，只需通过一个轻量级的系统提示 “detailed thinking on/off”，就能在标准聊天模式和推理模式之间自由切换。这一设计非常贴心，既满足了日常通用场景下的使用需求，又能在需要深度推理的任务中提供强大支持，而且无需使用不同的模型或架构，大大提高了模型的实用性和灵活性。

开源理念

开放许可，支持商业使用

NVIDIA 发布 Llama-Nemotron 系列模型时，采用开放许可，将模型权重与部分训练数据在 Hugging Face 平台公开，遵循 NVIDIA Open Model License 和 Llama 社区许可协议，支持商业使用。

如果你对****Llama-Nemotron系列模型有兴趣，欢迎到九章云极AlayaNeW平台进行体验！企业用户/教师注册即可免费享受价值约500元的25度算力包，让你体验极致高性能弹性算力。关注下方公众号点击用户注册即可。