📖标题:AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
🌐来源:arXiv, 2505.08311
🌟摘要
🔸我们提出了AM-Thinking-v1,这是一个32B密集语言模型,它推进了推理的前沿,体现了开源创新的协作精神。AM-Thinking-v1的表现超越了DeepSeek-R1,并与Qwen3-235B-A22B和Seed1.5-Whining等领先的混合专家(MoE)模型相媲美,在AIME 2024上获得了85.3的高分,在AIME 2025上获得了74.4的高分,并在LiveCodeBench上获得了70.3的高分。这展示了类似规模的开源模型中最先进的数学和编码能力。AM-Thinking-v1完全基于开源Qwen2.5-32B基础模型和公开查询构建,利用精心设计的训练后管道——结合监督微调和强化学习——提供卓越的推理能力。
🔸这项工作表明,开源社区可以在32B规模上实现高性能,这是部署和微调的实用最佳点。通过在顶级性能和现实世界的可用性之间取得平衡,我们希望AM-Thinking-v1能够激发进一步的协作努力,利用中型模型,突破推理界限,同时将可访问性作为创新的核心。我们在Hugging Face上开源了我们的模型
🛎️文章简介
🔸研究问题:如何在不依赖私有数据或大规模Mixture-of-Experts (MoE)架构的情况下,释放32B规模密集模型的推理潜力?
🔸主要贡献:论文提出了一种经过精心设计的后训练流程,使得32B规模的密集模型在推理能力上与更大规模的MoE模型相竞争,甚至在某些基准测试中超越它们。
📝重点思路
🔸论文采用两阶段的后训练流程,包括监督微调(SFT)和强化学习(RL)。
🔸数据预处理过程中,严格去除低质量查询和多模态查询,确保训练数据的质量。
🔸在数学查询中,利用LLM进行查询过滤,并通过严格的真值验证过程确保答案的准确性。
🔸通过难度感知的查询选择和两阶段训练程序,确保训练的稳定性和性能的逐步提升。
🔸采用基于回报模型的方法来评估无法客观验证的查询的模型响应质量。
🔎分析总结
🔸AM-Thinking-v1在多个推理基准测试中实现了优秀的性能,尤其是在数学推理任务上,分别在AIME2024和AIME2025中取得了85.3和74.4的成绩。
🔸该模型在代码生成基准LiveCodeBench中表现优异,得分达到70.3,超过了许多大型模型。
🔸论文表明,经过精心设计的后训练流程可以有效弥补32B规模模型与更大规模模型之间的性能差距,同时保持较高的部署效率。
💡个人观点
论文的核心在于利用后训练和开源数据,提升32B规模密集模型的推理能力。
🧩附录