英伟达：LLM混合模型架构Nemotron-H

最新推荐文章于 2025-05-08 10:04:30 发布

大模型任我行

最新推荐文章于 2025-05-08 10:04:30 发布

阅读量995

点赞数 30

分类专栏：大模型-结构原理文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147102893

版权

大模型-结构原理专栏收录该内容

53 篇文章

订阅专栏

在这里插入图片描述

📖标题：Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models NVIDIA
🌐来源：arXiv, 2504.03624

🌟摘要

🔸随着推理时间缩放对于增强推理能力变得至关重要，构建高效推理的模型变得越来越重要。我们介绍了NemotronH，这是一个8B和56B/47B混合曼巴变压器模型系列，旨在降低给定精度水平的推理成本。
🔸为了实现这一目标，我们用Mamba层替换了常见Transformer模型架构中的大多数自我关注层，Mamba层执行恒定计算，并且每个生成的令牌需要恒定内存。我们发现，与其他类似大小的最先进的开源Transformer模型（例如Qwen-2.5-7B/72B和Llama-3.1-8B/70B）相比，Nemotron-H模型提供了更好或同等的精度，同时推理速度快3倍。为了进一步提高推理速度并减少推理时所需的内存，我们使用一种名为MiniPuzzle的新的修剪和蒸馏压缩技术，从56B模型创建了Nemotron-H-47B-Base。
🔸Nemotron-H-47B-Base的精度与56B模型相似，但推断速度快20%。此外，我们介绍了一种基于FP8的训练配方，并表明它可以与基于BF16的训练达到同等效果。此配方用于训练56B模型。所有Nemotron-H型号都将发布，并支持Hugging Face、NeMo和Megatron LM。

🛎️文章简介

🔸研究问题：传统Transformer架构在自注意力机制中计算效率低下。
🔸主要贡献：论文提出了一系列高效的混合模型Nemotron-H，通过替换自注意力层来提升模型的计算和内存效率，同时保持竞争力的性能。

📝重点思路

🔸设计了一种混合架构Nemotron-H，结合了Mamba和滑动窗口注意力机制，减少自注意力计算的复杂度。
🔸利用高质量的网络爬虫数据集Nemotron-CC进行模型训练，并通过多种数据处理技术提升数据质量。
🔸引入合成数据生成技术，通过不同的处理管道对低质量数据进行去噪和多样性增强。
🔸在多个基准任务上与现有的开源Transformer模型进行比较，评估Nemotron-H的准确性和推理速度。

🔎分析总结

🔸实验结果表明，Nemotron-H模型在多个任务上超越了传统的Transformer模型，显示出更高的准确性和更快的推理速度。
🔸使用高质量数据集进行训练，Nemotron-H模型的表现比其他领先的模型（如DCLM和FineWeb-Edu）更为优越，尤其在处理长序列时表现显著。
🔸合成数据的引入提高了模型在数学和编程任务上的推理能力，特别是在GSM8K和MATH基准测试中显著提升了分数。
🔸在长上下文处理方面，Nemotron-H模型通过优化训练数据和结构设计，成功增强了模型的上下文理解能力。