Llama-Nemotron 超越 DeepSeek R1 成开源第一?

从2025年3月起,英伟达分阶段推出Llama-Nemotron家族的不同规格模型。Nano和Super版本在3月先行亮相,而Ultra版本作为旗舰型号于4月8日发布。Ultra版本的发布直接挑战了同期Meta的Llama 4系列,仅用三天时间便在多项基准测试中超越后者。

如需技术合作或业务咨询,请关注公众号:九章云极AlayaNeW
或者请移步个人vx: alayanew

原文阅读:https://mp.weixin.qq.com/s/HlMuViKehGc0A1CkYrpdxA

截至 2025 年 4 月,其旗舰模型 LN-Ultra 荣膺最 “智能” 开源模型称号。以253B参数(仅为DeepSeek-R1的1/3参数量)在 GPQA-Diamond(76.01分)、IFEval(89.45分)等关键基准中超过DeepSeek-R1,在单8xH100节点上的推理吞吐量达DeepSeek-R1的4倍。

5月5日,英伟达发布了技术报告,公开了模型从代码到数据集的一切,诚意满满:

完整模型权重:****三个尺寸任选择

训练数据集:****包含3300万条数学/代码/科学问答数据

全套工具链:****NeMo、Megatron-LM等开发神器

  • 论文标题:Llama-Nemotron: Efficient Reasoning Models
  • arXiv 地址:https://arxiv.org/pdf/2505.00949
  • 代码地址:https://github.com/NVIDIA/NeMo
  • 数据集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

性能表现

实力惊艳行业

在权威机构 Artificial Analysis 截止2025年4月测评中,Llama-Nemotron 系列模型表现堪称惊艳(如图 1),超越DeepSeek R1,在开源模型中排到了第1。

与其他顶尖推理模型相比,LN-Ultra 在多个推理和非推理基准测试中都能拔得头筹。像是在图 2 展示的科学推理(GPQA Diamond)、指令遵循(IFEval)、工具调用(BFCLv2)等测试场景下,LN-Ultra 的准确率远超同类开源模型,甚至比一些需要更高硬件配置的模型表现还要出色,彰显了它强大的实力。

高效推理

创新优化框架

为了实现高效推理,LN-Super 和 LN-Ultra 模型借助 Puzzle 框架进行了深度优化。Puzzle 框架是一种神经架构搜索(NAS)框架,它能在实际部署的约束条件下,将大语言模型转化为硬件高效的变体(参考图 3)。

它通过对 Llama 3 系列模型应用块级局部蒸馏,构建出可供选择的 transformer 块库。在这个过程中,一些块会去除注意力机制,减少计算量和内存消耗;同时,还会调整前馈网络(FFN)的维度,实现不同粒度的压缩。之后,利用混合整数规划(MIP)求解器,从块库中为每一层选择合适的块,组装成完整的模型,以达到在给定约束条件下的最优配置。

对于 LN-Ultra 模型,还引入了 FFN Fusion 技术。在 Puzzle 框架去除部分注意力层后,模型中会出现连续的 FFN 块,FFN Fusion 技术会将这些连续的 FFN 块替换为更少但更宽的 FFN 层,这些层可以并行执行,从而减少了顺序步骤,提高了计算利用率,显著降低了推理延迟。

经过一系列优化,LN-Super 和 LN-Ultra 在推理效率上有了极大提升。LN-Super 在单 NVIDIA H100 GPU(张量并行度为 1)上运行时,相比 Llama 3.3 - 70B-Instruct,吞吐量提升了 5 倍;LN-Ultra 针对 8 GPU 的 H100 节点进行优化,相比 Llama 3.1 - 405B-Instruct,延迟降低了 1.71 倍。

从图 4 可以直观地看到,在不同设置下,LN-Ultra 在 GPQA-Diamond 准确率和处理吞吐量上都优于 DeepSeek-R1 和 Llama 3.1 - 405B,在精度 - 吞吐量帕累托曲线上占据优势。

报告通过详实的表格与图表,展示了各模型在不同任务中的表现:

  • LN-Nano(8B):手机都能跑,在推理和聊天基准上表现出色,尤其是在小数据集上;
  • LN-Super(49B):全能选手,在推理和聊天基准上都具有竞争力,可以同时满足结构化推理和非结构化聊天的需求;
  • LN-Ultra(253B):科研神器,在推理和聊天基准上均优于其他公开模型,8块H100显卡高效运行。

训练流程

复杂严谨、合成数据赋能

Llama-Nemotron 系列模型的训练过程复杂且严谨,主要分为五个阶段:

  1. 架构优化阶段:运用神经架构搜索(NAS)提升推理效率,并引入 FFN Fusion 技术;
  2. 知识强化阶段:通过知识蒸馏与持续预训练,增强块间兼容性,弥补架构优化带来的质量损失;
  3. 监督微调阶段:基于标准指令数据与强大教师模型(如 DeepSeek-R1)的推理轨迹进行训练,赋予模型多步推理能力,并学会依据 “detailed thinking on/off” 指令控制推理行为;
  4. 强化学习阶段:针对 LN-Ultra 模型,利用复杂数学和 STEM 数据集,通过 Group Relative Policy Optimization(GRPO)算法,进一步提升科学推理能力;
  5. 对齐优化阶段:聚焦指令遵循与人类偏好优化,完成模型的最后校准。

训练过程中,数据质量与多样性至关重要。团队精心构建合成数据集,覆盖推理与非推理数据。以数学推理数据为例,从 Art of Problem Solving(AoPS)社区论坛采集大量数学问题,经问题提取、分类、答案提取、基准净化等处理,再借助 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成多种解决方案,经严格筛选后,确保数据的高质量与有效性。

推理切换

动态****满足多元需求

Llama-Nemotron 系列模型一大创新点是支持动态推理切换。用户在推理时,只需通过一个轻量级的系统提示 “detailed thinking on/off”,就能在标准聊天模式和推理模式之间自由切换。这一设计非常贴心,既满足了日常通用场景下的使用需求,又能在需要深度推理的任务中提供强大支持,而且无需使用不同的模型或架构,大大提高了模型的实用性和灵活性。

开源理念

开放许可,支持商业使用

NVIDIA 发布 Llama-Nemotron 系列模型时,采用开放许可,将模型权重与部分训练数据在 Hugging Face 平台公开,遵循 NVIDIA Open Model License 和 Llama 社区许可协议,支持商业使用。

如果你对****Llama-Nemotron系列模型有兴趣,欢迎到九章云极AlayaNeW平台进行体验!企业用户/教师注册即可免费享受价值约500元的25度算力包,让你体验极致高性能弹性算力。关注下方公众号点击用户注册即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值