MiMo-7B技术报告速读
第一章 介绍
论文介绍了一种名为 MiMo-7B 的大型语言模型,该模型专注于推理任务,通过优化预训练和微调阶段来挖掘模型的推理潜力。MiMo-7B-Base 是在 25 万亿个标记上预训练的,采用多标记预测目标来增强性能和加速推理速度。在微调阶段,准备了 130K 可验证的数学和编程问题进行强化学习,采用测试难度驱动的代码奖励方案来解决稀疏奖励问题,并使用战略性数据重采样来稳定训练。评估表明,MiMo-7B-Base 具备出色的推理潜力,超越了许多大型的 32B 模型。
第二章 预训练
第二节 预训练数据
MiMo-7B 的预训练语料库整合了多种来源的数据,包括网页、学术论文、书籍、编程代码和合成数据。为了提高预训练数据的质量和推理模式密度,优化了自然文本预处理流程,采用了多维度数据过滤,并生成了大量的合成推理数据。通过三阶段数据混合策略来最大化模型在各种任务和领域的推理潜力。最终构建了一个包含约 25 万亿个标记的高质量预训练数据集。
第三节 模型架构
MiMo-7B 采用的是基于解码器的 Transformer 架构,并包含了分组查询注意力(GQA)、预 RMSNorm、SwiGLU 激活和旋转变换位置嵌入(RoPE)等组件。引入了多标记预测(MTP)作为附加的训练目标,使模型能够更准确和快速地预测未来的标记。在预训练期间使用单个 MTP 层,而在推理阶段,为了加速,复制预训练的单个 MTP 层并进行微调。
第四节 超参数设置
设置了 Transformer 层数为 36,隐藏维度为 4096,FFN 中间隐藏维度为 11008,注意力头数为 32,键值组数为 8。优化器采用 AdamW,设置梯度裁剪的最大范数为 1.0。预训练的前两个阶段最大序列长度为 8192 个标记,RoPE 基础为 10000,第三阶段扩展到 32768 个标记和 640000。学习率从 0 开始线性变暖到 1.07×10−4,然后保持恒定,在最后阶段通过余弦衰减到 1×10−5。线性批量大小的变暖在前 168B 标记中上升到 2560,并保持到第 1 阶段和第 2 阶段结束。MTP 损失权重在前 10.3T 标记中设置为 0.3,之后降低到 0.1。
第五节 预训练评估
MiMo-7B-Base 在多个基准测试中表现出色,包括自然语言理解与推理、科学问题回答、阅读理解、数学推理和编码等方面。在 BBH 基准测试中得分 75.2,超越了其他开源模型。在 SuperGPQA 结果中,模型展示了解决研究生级问题的强大性能。
第三章 微调
第一节 监督微调
监督微调(SFT)数据集由开源和专有蒸馏数据组成。在预处理过程中,移除了与评估基准有 16-gram 重叠的训练查询,并排除了包含混合语言或不完整响应的样本。最终的 SFT 数据集包含约 500K 样本。在微调 MiMo-7B-Base 模型时,使用了恒定学习率 3×10−5 和批量大小 128,并将样本打包到最大长度为 32768 个标记。
第二节 强化学习数据准备
使用数学和代码数据来构建强化学习(RL)训练数据。数学问题集来自多种来源,包括开源数据集和专有收集的竞赛级别集合。代码问题数据则来自开源数据集和新收集的问题集。通过模型回滚和过滤过程,确保数据集的质量。
第三节 强化学习训练方案
采用改进的组相对策略优化(GRPO)算法进行训练。在原始 GRPO 算法基础上,结合了去除 KL 损失、动态采样和 Clip-Higher 等增强技术。
测试难度驱动的奖励
为了解决代码问题的稀疏奖励问题,提出了测试难度驱动的奖励机制。通过将测试用例分为不同难度级别,并为每个级别分配不同的分数,从而允许模型在解决部分子任务时获得部分分数,提高了训练效率。
易数据过滤与重采样
随着策略的改进,越来越多的问题在 RL 训练中达到了完美的通过率。通过引入轻松数据重采样策略,有效地稳定了策略更新并提高了采样效率。
第四节 强化学习基础设施
构建了无缝回滚引擎和增强了 vLLM 的推理引擎,以支持高效的动态采样 RL 训练。无缝回滚引擎通过连续回滚、异步奖励计算和早期终止来优化 GPU 利用率。
无缝回滚引擎
该引擎的核心在于积极处理完成的回滚任务并启动新的回滚,从而消除了生成和奖励阶段之间的同步障碍。通过这种方式,实现了训练速度的提升和验证加速。
基于 vLLM 的推理引擎
在 RL 系统中,采用了 vLLM 作为推理引擎,并扩展了框架以支持 MTP。为了提高引擎的鲁棒性,优化了前缀缓存中的计算块清理和异步输出处理。
第四章 评估
第一节 评估设置
对 MiMo-7B 系列模型进行了全面的评估,包括语言理解与推理、科学问题回答、阅读理解、数学推理和编码等多个基准测试。
第二节 评估结果
MiMo-7B-RL 在数学推理和算法代码生成功能上表现卓越。在 LiveCodeBench v5 上,MiMo-7B-RL 显著超越了 OpenAI o1-mini,而在最新的 LiveCodeBench v6 上,MiMo-7B-RL 的得分达到了 49.3%,超越了 QwQ-32B-Preview 超过 10 个百分点。MiMo-7B-RL 还保持了强劲的通用性能,超越了 QwQ-32B-Preview 和 DeepSeek-R1-Distill-Qwen-7B。
第五章 总结
论文总结了 MiMo-7B 的研究工作,表明该模型通过优化的预训练和微调过程,释放了高级推理能力。MiMo-7B-Base 在预训练中展现出卓越的推理潜力,而 MiMo-7B-RL 在数学、代码和通用任务上展现出了卓越的推理能力。
核心技术总结表
技术点 | 章节 | 说明 |
---|---|---|
多标记预测(MTP) | 第二章 | 通过预测多个标记来加速推理过程 |
数据预处理优化 | 第二章 | 提高数据质量和推理模式密度 |
三阶段数据混合策略 | 第二章 | 提升模型在不同任务和领域的推理能力 |
测试难度驱动的奖励 | 第三章 | 解决稀疏奖励问题,提高训练效率 |
轻松数据重采样策略 | 第三章 | 稳定策略更新并提高采样效率 |
无缝回滚引擎 | 第三章 | 优化 GPU 利用率,提升训练速度和验证速度 |
vLLM 推理引擎增强 | 第三章 | 支持 MTP 并提高推理引擎的鲁棒性 |