论文导读 | 增强大模型的数学能力

数学能力是人类智能的一项基础技能,在自然科学、计算机科学、医学、金融等不同领域都发挥重要作用。因此也是现在评价大模型能力的重要指标。

Benchmark

现在评价大模型数学能力最常用的两个评测数据集分别是MATH和GSM8K

MATH Dataset (2021-03) [1]

MATH数据集是一个由加州大学伯克利分校的研究团队开发的新数据集,专门用于衡量机器学习模型解决数学问题的能力。该数据集包含12,500个来自高中数学竞赛的挑战性问题,每个问题都有一个完整的逐步解决方案,这使得模型可以学习如何生成答案推导和解释。

图片

MATH数据集的问题覆盖了七个主要的数学领域,包括代数、几何、数论等,并且每个问题都标记了难度等级,从1到5,这允许对模型在不同难度和科目上的问题解决能力进行细致的评估。此外,数据集中的问题和解决方案都使用了LATEX和Asymptote语言进行了一致的格式化,使得模型能够处理图形和图表,这是首次在数学问题解决领域中实现。

GSM8K (2021-10, OpenAI) [2]

GSM8K数据集是由OpenAI推出的,旨在评估和提升大型语言模型在解决数学文字问题方面的能力。该数据集包含8500个高质量的、语言多样化的小学数学问题,这些问题需要2至8步的计算来解决,主要涉及基本的算术运算。

图片

GSM8K数据集的设计原则包括高质量、高多样性、适中难度和自然语言解决方案。这些问题是由人类问题编写者创建的,并通过广泛的质量控制来确保问题的质量。此外,数据集提供了问题的自然语言解决方案,而不是纯数学表达式,这有助于深入了解大型语言模型的内部推理过程。

WizardMath (2023-08) [3]

文章介绍了一个名为WizardMath的新型大型语言模型,该模型专为提升数学推理能力而设计。WizardMath基于Llama-2模型,通过一种创新的方法——从Evol-Instruct反馈中学习的强化学习(Reinforcement Learning from Evol-Instruct Feedback, RLEIF)进行微调,以增强其在数学问题解决方面的表现。

在方法论上,RLEIF方法包含三个关键步骤:首先是监督式微调(Supervised Fine-Tuning),利用少量样本重新生成GSM8k和MATH数据集中的答案,并与原始数学指导数据混合,以提高模型对指令的遵循能力;其次是训练指令奖励模型(Instruction Reward Model, IRM)和过程监督奖励模型(Process-supervised Reward Model, PRM),IRM用于评估进化指令的质量,而PRM则为解决方案的每一步提供反馈;最后是主动Evol-Instruct和近端策略优化(Proximal Policy Optimization, PPO)训练,通过增加数据量和利用奖励模型生成最终的指令奖励和答案奖励。

图片

在效果上,WizardMath在两个公认的数学推理基准测试GSM8k和MATH上进行了广泛的实验。实验结果显示,WizardMath在pass@1指标上显著超过了所有其他开源大型语言模型,并且在GSM8k上甚至超过了一些最大的闭源模型,如ChatGPT-3.5、Claude Instant-1、PaLM-2等。特别是在GSM8k上,WizardMath的pass@1得分提高了24.8%,在MATH上提高了9.2%,显示出其在数学推理方面的卓越性能。

Tool-integrated Reasoning Agents (2023-09) [4]

本文介绍了ToRA(Tool-Integrated Reasoning Agents),这是一系列专为解决复杂数学问题而设计的微调大型语言模型。ToRA的核心思想是将自然语言推理与外部工具(如计算库和符号求解器)的使用无缝整合,以此结合语言的分析能力和工具的计算效率。通过这种集成方法,ToRA在多个数学推理数据集上取得了显著的性能提升。

图片

ToRA的训练过程包括两个关键步骤:首先,通过模仿学习(imitation learning)来训练模型,使其能够生成与工具交互的推理轨迹;其次,通过输出空间塑形(output space shaping)来进一步优化模型的推理行为。这一过程涉及到从高质量的注释中学习,并在模型生成的输出中引入多样性,同时纠正错误的工具使用行为。

图片

在实验中,ToRA在10个不同规模的数学推理数据集上进行了评估,包括基础算术到竞赛级别的问题。结果表明,ToRA模型在所有数据集上都显著优于现有的开源模型,平均绝对提高了13%至19%。特别是,ToRA-7B在竞赛级别的MATH数据集上的表现超过了之前最佳的开源模型WizardMath-70B 22%的绝对值,而ToRA-CODE-34B的准确率超过了50%,与GPT-4使用程序解决问题的表现相当。

OpenMathInstruct (2024-02) [5]

OpenMathInstruct-1是一个由NVIDIA团队开发的数学指令微调数据集,它包含了1.8百万个数学问题及其解决方案对,目的是提升开源大型语言模型(LLMs)在数学推理方面的能力。该数据集利用了最新发布的、具有宽松许可协议的Mixtral模型,该模型在数学推理任务上表现出色。

项目团队通过创新的提示方法和扩展策略,合成了GSM8K和MATH两个数学推理基准测试的解决方案,以此来构建数据集。他们开发的最佳模型OpenMath-CodeLlama-70B在GSM8K和MATH基准测试上取得了与顶尖gpt-distilled模型相媲美的成绩。

在方法论上,团队采用了few-shot prompting技术来合成解决方案,并通过多种提示策略来提高训练集的覆盖率。特别是,他们发现使用掩码文本解决方案的提示策略能显著提升MATH基准测试的覆盖率。

图片

文章还强调了数据集后处理的重要性,包括修正语法噪声和精心选择数据集的策略。研究发现,优先选择代码解决方案可以提高模型性能。

实验结果显示,OpenMathInstruct-1在提升模型性能方面发挥了关键作用。与现有的gpt-distilled模型相比,OpenMath-finetuned模型在多个数学推理任务上取得了竞争性或更优的结果。

图片

GPT-4 Code Interpreter (2023-07) [6]

文章指出现有的GPT-4 Code Interpreter在处理数学问题时表现出色,这得益于其生成和执行代码的能力,以及在收到不合理输出时调整解决方案的能力。基于此,研究者提出了一种名为显式基于代码的自我验证(CSV)的新颖方法,该方法通过零样本提示鼓励模型使用代码自我验证答案。当验证状态为“False”时,模型会自动修正其解决方案,类似于数学考试中纠正错误的过程。

图片

此外,研究者还发现验证结果的状态可以指示解决方案的可信度,这有助于提高多数投票法的有效性。通过结合GPT-4 Code Interpreter和CSV,研究者在MATH数据集上实现了令人印象深刻的零样本准确率提升,从53.9%提高到84.3%。

图片

总结

GSM8k Pass@1MATH Pass@1
GPT492.042.5
ChatGPT80.834.1
Mixtral 8x7B74.428.4
WizardMath-7B-V1.183.233.0
ToRA-Code 7B72.644.6
GPT4-Code + CSV84.3

参考文献

[1]: Hendrycks D, Burns C, Kadavath S, et al. Measuring mathematical problem solving with the math dataset[J]. arXiv preprint arXiv:2103.03874, 2021.

[2]: Cobbe K, Kosaraju V, Bavarian M, et al. Training verifiers to solve math word problems[J]. arXiv preprint arXiv:2110.14168, 2021.

[3]: Luo H, Sun Q, Xu C, et al. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct[J]. arXiv preprint arXiv:2308.09583, 2023.

[4]: Gou Z, Shao Z, Gong Y, et al. Tora: A tool-integrated reasoning agent for mathematical problem solving[J]. arXiv preprint arXiv:2309.17452, 2023.

[5]: Toshniwal S, Moshkov I, Narenthiran S, et al. OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset[J]. arXiv preprint arXiv:2402.10176, 2024.

[6]: Zhou A, Wang K, Lu Z, et al. Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification[C]//The Twelfth International Conference on Learning Representations. 2023.

图片

图片

欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网:https://mod.wict.pku.edu.cn/
微信社区群:请回复“社区”获取

实验室开源产品图数据库gStore:
gStore官网:https://www.gstore.cn/
GitHub:https://github.com/pkumod/gStore
Gitee:https://gitee.com/PKUMOD/gStore

  • 24
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值