阿里发布QWEN2.5技术报告:构建数学专家

在这里插入图片描述

📖标题:QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT
🌐来源:arXiv, 2409.12122

摘要

🔸在本报告中,我们介绍了一系列特定于数学的大型语言模型:Qwen2.5-Math和Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5系列的核心创新在于将自我提升的理念融入整个流程,从预训练和后训练到推理:(1)在预训练阶段,Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。(2) 在训练后阶段,我们通过从Qwen2-Math-Instruct中进行大规模抽样来开发奖励模型(RM)。然后将该RM应用于监督微调(SFT)中的数据迭代演化。有了更强的SFT模型,就可以迭代地训练和更新RM,这反过来又指导下一轮SFT数据迭代。在最终的SFT模型上,我们采用最终的RM进行强化学习,从而得到Qwen2.5数学指令。(3) 此外,在推理阶段,RM用于指导采样,优化模型的性能。
🔸Qwen2.5-Math-Instruct支持中文和英文,并拥有先进的数学推理能力,包括思维链(CoT)和工具集成推理(TIR)。我们在10个中英文数学数据集上评估了我们的模型,如GSM8K、MATH、高考、AMC23和AIME24,涵盖了从小学到数学竞赛问题的一系列困难。旗舰模型Qwen2.5-Math-72B-Instruct的性能明显优于开源模型和领先的闭源模型(例如GPT4o、Gemini Math-Specialized 1.5 Pro)。特别是在具有挑战性的AMC 2023中,在RM的帮助下,Qwen2.5-Math-72B-Instruct成功地解决了几乎所有的问题。Qwen2.5-Math-7B-Instruct在性能上超越了Qwen2 Math Instruct 72B。在CoT和TIR设置下,MATH得分分别为83.6和85.3。即使是我们最小的1.5B模型,在使用Python解释器时也能获得约80的MATH分数,其性能也优于该领域的大多数当前模型。我们希望Qwen2.5-Math能够为社区解决复杂的数学问题做出贡献。
🔸Qwen2.5-Math系列的基础模型、指导模型和奖励模型可在Hugging Face和ModelScope上获得,评估脚本可在GitHub上获得。我们还开发了一个支持QwenAgent4中TIR模式的演示,该模式允许在本地运行代码以体验Qwen2.5-Math的工具集成推理功能。

🛎️文章简介

🔸研究问题:如何提升大语言模型(LLM)在算术和数学问题上的推理能力?
🔸主要贡献:论文开发了一系列数学专用的大型语言模型Qwen2.5-Math,并通过自改进技术显著提升了这些模型在数学问题解决上的性能。

📝重点思路

🔺相关工作

🔸Qwen2.5-Math是在Qwen2-Math基础上开发,并引入了一系列自我改进技术。
🔸自我改进技术利用LLM本身的监督,实现迭代演化流程。

🔺Qwen2构建流程

🔸预训练:网络文本、代码片段、百科全书、考试问题中收集语料,并用Qwen2合成数据,得到v1版本的高质量数学语料,通过预训练700B的token得到Qwen2-Math。
🔸奖励模型:在预训练基础上,通过对206K数学问题进行6次采样,训练得到Qwen2-Math-RM。
🔸指令微调:使用奖励模型,通过拒绝采样构建监督微调(SFT)数据。聚焦思维链(CoT),通过拒绝抽样、奖励建模和带注释答案的指导构建响应,训练得到Qwen2-Math-SFT。
🔸强化学习:在SFT之后,利用奖励模型做组相对策略优化(GRPO),训练得到Qwen2-Math-Instruct。

🔺Qwen2.5构建流程

🔸预训练:使用Qwen2-Math-72B-Instruct模型进一步合成高质量的数学预训练数据,得到更高质量的v2版本的语料后预训练。
🔸指令微调:训练模型学会逐步自然语言推理和利用外部工具求解,新增了工具集推理(TIR)数据,引入在线拒绝微调(RFT)迭代生成工具集成的推理路径。
🔸奖励模型:额外引入了对中文和TIR模式的支持
🔸强化学习:没变化
🔸自我改进:整个流程模型更新后,可以获得新的偏好数据,训练奖励模型并应用于监督微调的迭代进化。

🔎分析总结

🔸Qwen2.5-Math在预训练、后训练和强化学习三阶段进行了自我提升。
🔸Qwen2.5-Math-7B-Instruct媲美Qwen2-Math-72B-Instruct,表明通过改进训练数据和策略可以在一定程度上弥补参数规模的不足。
🔸在TIR模式下,Qwen2.5-Math模型的性能进一步提升,表明利用工具科学计算的高效性,有助于复杂数学问题求解。

💡个人观点

论文的核心在于引入工具求解,并通过自我改进技术和多轮数据增强策略形成迭代优化,整个流程类似Llama 3。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值