开源大模型新标杆!Moxin-7B:从预训练到强化学习,全面透明的AI革新

完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!

引言:大模型时代的“开源困境”

自从 GPT-3 横空出世,生成式AI彻底点燃了全球科技圈:

  • GPT-4、Claude 3、Gemini、DeepSeek,
  • 不断刷新智能上限 生成文字、代码、图像,跨模态进步一日千里
  • 各行各业争相拥抱大语言模型(LLMs),新的创业潮汹涌而来

尽管LLMs如GPT-4、Claude等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限:

  • 绝大多数顶尖模型闭源,仅限API调用
  • 商业化受限,API费用高昂,且随时可能涨价
  • 数据隐私、合规性问题难以把控
  • 对于开源模型,往往只公开模型权重,而关键的训练代码、数据集和配置却被隐藏,这严重阻碍了学术研究和商业化应用

Moxin-7B的诞生,正是为了解决这一问题!

它由来自东北大学、哈佛大学、康奈尔大学等机构的研究团队联合开发,完全遵循“开源科学”原则,公开从数据清洗到强化学习的全流程细节,从预训练到DeepSeek同款强化学习,成为目前透明度最高的开源LLM之一。

请添加图片描述

Moxin-7B的开源贡献

  • Moxin-7B-Base 权重、预训练数据与代码
  • Moxin-7B-Instruct 权重、SFT与DPO的训练数据与代码
  • Moxin-7B-Reasoning 权重、GRPO的训练数据与代码

GitHub:github.com/moxin-org/Moxin-LLM

Arxiv: https://arxiv.org/abs/2412.06845

Moxin-7B的三大核心突破

1. 真正的“开源科学”:从数据到模型的全透明

完整公开:包括预训练代码、超参数配置、数据处理脚本、SFT/RLHF训练框架,权重等等。
数据集透明:
预训练数据:基于高质量语料库 SlimPajama(627B tokens)和DCLM-BASELINE,经过严格去重和过滤。
指令微调数据:使用 Tulu 3和 Infinity Instruct,涵盖数学、代码、科学文献等多领域任务。
强化学习数据:采用 OpenThoughts 和 OpenR1-Math-220k,通过DeepSeek R1生成的高质量数学推理数据。

2. 高性能低成本:小模型的大能量

训练成本仅16万美元(对比:GPT-3训练成本约460万美元)。
评测表现亮眼:
零样本任务:在ARC-C(AI2推理挑战)上达到58.64%,超越LLaMA 3.1-8B(53.67%)和Qwen2-7B(50.09%)。
数学推理:经过RL微调后,在MATH-500上准确率68%,超越70B参数的Llama-3-Instruct模型(64.6%)。
长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理32K长文本。

3. 技术创新:从架构到训练策略

模型架构:

基于Mistral-7B改进,深度扩展至36层,采用预层归一化和混合精度训练,提升稳定性。

后训练优化:

指令微调(SFT):使用Tulu 3框架,在939K指令数据上训练,增强多任务能力。
偏好优化(DPO):通过LLM-as-a-judge标注的偏好数据,让模型输出更符合人类价值观。

强化学习(RL):

采用GRPO算法(类似DeepSeek R1),仅用7B参数即可实现高效推理。
训练框架DeepScaleR和AReal均开源,支持社区复现。
体现出强化学习对7B规模的小模型也有效果。

技术细节大揭秘:打造强力 7B 模型的秘密

1. 基础架构:在 Mistral-7B 上全面增强

36层 Transformer(比原版 Mistral-7B 的32层更深)
4096 维隐藏层,32个 Attention 头
GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文处理,且推理速度更快、内存占用更低
混合精度训练(FP16)+ 激活检查点(Activation Check pointing),显著减少训练显存开销
采用“滚动缓存机制(Rolling Buffer Cache)”,在超长文本推理时,将注意力存储限制在固定窗口,既保持推理质量,又避免显存爆炸

2. 数据策略:质量远胜普通爬虫数据

Moxin-7B 使用了极为精细的数据筛选流程:

文本数据:SlimPajama + DCLM-Baseline

去除短文本、低质量、重复网页,提升语料干净度
基于 MinHash-LSH 技术做跨域去重,相似度阈值控制在0.8以内
清洗后仅保留约 627B Token(RedPajama原版的49%大小),但信息密度更高

代码数据:The Stack-dedup

6TB开源许可代码,涵盖358种语言
进一步近似去重,避免重复训练,移除40%以上重复或近重复代码片段
助力模型在编码理解、代码生成任务上有优异表现,提升推理能力

推理/数学增强数据:

采用高质量公开数据
集中提升推理、数学、常识问答等方面能力

3. 训练过程:高效且可控

三阶段预训练策略:
1. 基础阶段(2K context)
2. 长上下文阶段(4K context)
3. 能力强化阶段

使用 Colossal-AI 进行训练加速:

  1. 混合并行(Data Parallelism + Model Parallelism)
  2. ZeRO 优化(减少冗余存储)
  3. 混合精度训练
  4. 动态调度、异步通信加速

训练成本仅约 16万美元!
为小型研究团队/企业提供了现实范例

4. 微调与强化学习:能力全面拉满!

预训练结束后,Moxin团队采用双路线后期优化:
· 指令微调(SFT + DPO)

o 采用 open-instruct 开源框架
o 基于 Tülu 3 和 Infinity Instruct 数据集,采用多源指令数据(如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等)
o 使用 DPO(Direct Preference Optimization)进一步对齐人类偏好
o 结果:生成回答更流畅、理解指令更准确
· 推理强化(CoT + GRPO)
o 使用高质量链式推理数据(OpenThoughts、OpenR1-Math等)进行微调
o 引入 GRPO 强化学习,提升复杂推理/数学答题能力
o 采用开源训练框架 DeepScaleR,支持社区复现
o 结果:Moxin Reasoning 模型,在数学推理能力上表现卓越

Moxin vs. 主流模型:实测对比

  • Base 模型
    · Zero-shot 测试
    在这里插入图片描述

    表中Moxin-7B-Enhanced即为Moxin-7B-Base模型,可以观察到,相比于其他Base模型如Qwen2-7B、Llama3.1-8B等,Moxin-7B-Base表现出强劲性能。

· Few-shot 测试

添加图片注释,不超过 140 字(可选)

表中Moxin-7B-Enhanced即为Moxin-7B-Base模型,可以观察到,相比于其他Base模型如Qwen2-7B、Llama3.1-8B等,Moxin-7B-Base表现出强劲性能。

· Instruct模型

添加图片注释,不超过 140 字(可选)

表中Moxin-7B-DPO即为Moxin-7B-Instrcut模型,可以观察到,相比于其他Instruct模型如Qwen2.5-7B-Instruct,Moxin-7B-Instruct表现亮眼。

· Reasoning模型

添加图片注释,不超过 140 字(可选)

相比于其他baselines如Qwen2.7-Math-7B-Base,Moxin-7B-Reasoning表现突出,体现出强化学习对7B规模的小模型也有效果。

结语:开源的力量

Moxin-7B证明了一点:高性能LLM不必是黑箱。它的全透明策略不仅降低了研究门槛,还为中小企业提供了可控的AI解决方案。Moxin-7B的开源贡献:

  • Moxin-7B-Base 权重、预训练数据与代码
  • Moxin-7B-Instruct 权重、SFT与DPO的训练数据与代码
  • Moxin-7B-Reasoning 权重、GRPO的训练数据与代码

立即体验:

🔗 GitHub:github.com/moxin-org/Moxin-LLM

🔗 HuggingFace:huggingface.co/moxin-org

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值