小米开源Xiaomi-MiMo-7B 详情

Xiaomi-MiMo 开源详情

一、引言

这篇技术报告介绍了小米推出的 MiMo-7B 系列模型。目前多数成功的强化学习(RL)工作,尤其是提升代码推理能力的研究,都依赖于大型基础模型(如 32B 模型)。通常认为,小型模型难以同时在数学和代码推理能力上取得均衡提升。但报告作者认为,强化学习训练的推理模型效果取决于基础模型的推理潜力。为充分挖掘语言模型的推理潜力,既要关注后训练策略,也要优化预训练方法。MiMo-7B 系列模型从零开始训练,专为推理任务设计。实验表明,即使参数量仅为 7B,其推理潜力也能超越 32B 模型。通过在 SFT(监督微调)模型基础上进行 RL 训练得到的 MiMo7B-RL,在数学和代码推理任务上性能优异,与 OpenAI o1-mini 模型相当。

##二 、模型训练方法

(一)预训练:构建推理导向的基础模型

  • 数据预处理优化 :改进文本提取工具,采用多维数据过滤,提升预训练数据中推理模式密度,并生成海量多样化合成推理数据。

  • 三阶段数据混合策略 :MiMo7B-Base 在约 25 万亿个 tokens 上进行预训练。

  • 多 Token 预测(MTP)训练目标 :除常规训练目标外,引入 MTP提升,模型性能并加速推理。

(二)后训练策略:开创性的推理模型训练

  • 数据精选与处理 :收集 130K 数学和代码问题作为 RL 训练数据,经规则验证器筛选。每个问题严格清理并评估难度,仅采用基于规则的准确性奖励,避免奖励欺骗问题。

  • 应对稀疏奖励问题 :针对复杂代码问题,引入测试难度驱动的代码奖励机制。根据测试用例难度分配细致分数,为策略优化提供密集奖励信号。

  • 数据重采样策略 :对简单问题重采样,提升 RL 训练后期的 roll out 采样效率,稳定策略更新。

(三)RL 基础设施

  • 无缝 roll out 引擎 :融合持续 roll out、异步奖励计算和早期终止,减少 GPU 空闲时间,使训练加速 2.29 倍,验证加速 1.96 倍。

  • vLLM 中的 MTP 支持与推理引擎增强 :在 vLLM 中实现 MTP 支持,增强 RL 系统推理引擎鲁棒性。

三、模型描述与下载

MiMo-7B 系列包含以下模型:

  • MiMo-7B Base :具备卓越推理潜力的基础模型,模型链接为 XiaomiMiMo/MiMo-7B

  • MiMo-7B RL-Zero :从基础模型训练得到的 RL 模型,链接是 XiaomiMiMo/MiMo-7Bhttps

  • MiMo-7B SFT :基于基础模型训练的 SFT 模型,下载地址为 XiaomiMiMo/MiMo-7B

  • MiMo-7B-RL :从 SFT 模型训练而来的 RL 模型,性能出色,与 OpenAI o1-mini 比肩,可通过 XiaomiMiMo/MiMo-7B 获取。

四、评估结果

在多项基准测试中,MiMo-7B 系列表现突出。在例如 MATH-500 测试中,MiMo-7B-RL 的 Pass@1 成绩达 95.8;在 LiveCodeBench v5 测试里,其 Pass@1 成绩为 57.8。与众多知名模型相比,如 OpenAI o1-mini、Qwen 等,在多个评估任务上 MiMo-7B-RL 都取得了优异成绩,充分展现了其强大的推理能力。

五、部署方式

(一)vLLM 推理

提供了使用 vLLM 进行推理的示例脚本,包括直接使用 vLLM 以及注册 vLLM 加载器两种方式。建议使用基于 vLLM 0.7.3 开发的 fork 版本,并推荐使用空系统提示。

(二)HuggingFace 推理

示例脚本展示了如何利用 HuggingFace 的 transformers 库进行模型推理,包括模型和分词器的加载、输入文本的处理以及模型生成文本的输出。

以下是论文中的核心技术汇总表格:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值