数学能力是人类智能的一项基础技能,在自然科学、计算机科学、医学、金融等不同领域都发挥重要作用。因此也是现在评价大模型能力的重要指标。
Benchmark
现在评价大模型数学能力最常用的两个评测数据集分别是MATH和GSM8K
MATH Dataset (2021-03) [1]
MATH数据集是一个由加州大学伯克利分校的研究团队开发的新数据集,专门用于衡量机器学习模型解决数学问题的能力。该数据集包含12,500个来自高中数学竞赛的挑战性问题,每个问题都有一个完整的逐步解决方案,这使得模型可以学习如何生成答案推导和解释。
MATH数据集的问题覆盖了七个主要的数学领域,包括代数、几何、数论等,并且每个问题都标记了难度等级,从1到5,这允许对模型在不同难度和科目上的问题解决能力进行细致的评估。此外,数据集中的问题和解决方案都使用了LATEX和Asymptote语言进行了一致的格式化,使得模型能够处理图形和图表,这是首次在数学问题解决领域中实现。
GSM8K (2021-10, OpenAI) [2]
GSM8K数据集是由OpenAI推出的,旨在评估和提升大型语言模型在解决数学文字问题方面的能力。该数据集包含8500个高质量的、语言多样化的小学数学问题,这些问题需要2至8步的计算来解决,主要涉及基本的算术运算。
GSM8K数据集的设计原则包括高质量、高多样性、适中难度和自然语言解决方案。这些问题是由人类问题编写者创建的,并通过广泛的质量控制来确保问题的质量。此外,数据集提供了问题的自然语言解决方案,而不是纯数学表达式,这有助于深入了解大型语言模型的内部推理过程。
WizardMath (2023-08) [3]
文章介绍了一个名为WizardMath的新型大型语言模型,该模型专为提升数学推理能力而设计。WizardMath基于Llama-2模型,通过一种创新的方法——从Evol-Instruct反馈中学习的强化学习(Reinforcement Learning from Evol-Instruct Feedback, RLEIF)进行微调,以增强其在数学问题解决方面的表现。
在方法论上,RLEIF方法包含三个关键步骤:首先是监督式微调(Supervised Fine-Tuning),利用少量样本重新生成GSM8k和MATH数据集中的答案,并与原始数学指导数据混合,以提高模型对指令的遵循能力;其次是训练指令奖励模型(Instruction Reward Model, IRM)和过程监督奖励模型(Process-supervised Reward Model, PRM),IRM用于评估进化指令的质量,而PRM则为解决方案的每一步提供反馈;最后是主动Evol-Instruct和近端策略优化(Proximal Policy Optimization, PPO)训练,通过增加数据量和利用奖励模型生成最终的指令奖励和答案奖励。
在效果上,WizardMath在两个公认的数学推理基准测试GSM8k和MATH上进行了广泛的实验。实验结果显示,WizardMath在pass@1指标上显著超过了所有其他开源大型语言模型,并且在GSM8k上甚至超过了一些最大的闭源模型,如ChatGPT-3.5、Claude Instant-1、PaLM-2等。特别是在GSM8k上,WizardMath的pass@1得分提高了24.8%,在MATH上提高了9.2%,显示出其在数学推理方面的卓越性能。
Tool-integrated Reasoning Agents (2023-09) [4]
本文介绍了ToRA(Tool-Integrated Reasoning Agents),这是一系列专为解决复杂数学问题而设计的微调大型语言模型。ToRA的核心思想是将自然语言推理与外部工具(如计算库和符号求解器)的使用无缝整合,以此结合语言的分析能力和工具的计算效率。通过这种集成方法,ToRA在多个数学推理数据集上取得了显著的性能提升。
ToRA的训练过程包括两个关键步骤:首先,通过模仿学习(imitation learning)来训练模型,使其能够生成与工具交互的推理轨迹;其次,通过输出空间塑形(output space shaping)来进一步优化模型的推理行为。这一过程涉及到从高质量的注释中学习,并在模型生成的输出中引入多样性,同时纠正错误的工具使用行为。
在实验中,ToRA在10个不同规模的数学推理数据集上进行了评估,包括基础算术到竞赛级别的问题。结果表明,ToRA模型在所有数据集上都显著优于现有的开源模型,平均绝对提高了13%至19%。特别是,ToRA-7B在竞赛级别的MATH数据集上的表现超过了之前最佳的开源模型WizardMath-70B 22%的绝对值,而ToRA-CODE-34B的准确率超过了50%,与GPT-4使用程序解决问题的表现相当。
OpenMathInstruct (2024-02) [5]
OpenMathInstruct-1是一个由NVIDIA团队开发的数学指令微调数据集,它包含了1.8百万个数学问题及其解决方案对,目的是提升开源大型语言模型(LLMs)在数学推理方面的能力。该数据集利用了最新发布的、具有宽松许可协议的Mixtral模型,该模型在数学推理任务上表现出色。
项目团队通过创新的提示方法和扩展策略,合成了GSM8K和MATH两个数学推理基准测试的解决方案,以此来构建数据集。他们开发的最佳模型OpenMath-CodeLlama-70B在GSM8K和MATH基准测试上取得了与顶尖gpt-distilled模型相媲美的成绩。
在方法论上,团队采用了few-shot prompting技术来合成解决方案,并通过多种提示策略来提高训练集的覆盖率。特别是,他们发现使用掩码文本解决方案的提示策略能显著提升MATH基准测试的覆盖率。
文章还强调了数据集后处理的重要性,包括修正语法噪声和精心选择数据集的策略。研究发现,优先选择代码解决方案可以提高模型性能。
实验结果显示,OpenMathInstruct-1在提升模型性能方面发挥了关键作用。与现有的gpt-distilled模型相比,OpenMath-finetuned模型在多个数学推理任务上取得了竞争性或更优的结果。
GPT-4 Code Interpreter (2023-07) [6]
文章指出现有的GPT-4 Code Interpreter在处理数学问题时表现出色,这得益于其生成和执行代码的能力,以及在收到不合理输出时调整解决方案的能力。基于此,研究者提出了一种名为显式基于代码的自我验证(CSV)的新颖方法,该方法通过零样本提示鼓励模型使用代码自我验证答案。当验证状态为“False”时,模型会自动修正其解决方案,类似于数学考试中纠正错误的过程。
此外,研究者还发现验证结果的状态可以指示解决方案的可信度,这有助于提高多数投票法的有效性。通过结合GPT-4 Code Interpreter和CSV,研究者在MATH数据集上实现了令人印象深刻的零样本准确率提升,从53.9%提高到84.3%。
总结
GSM8k Pass@1 | MATH Pass@1 | |
---|---|---|
GPT4 | 92.0 | 42.5 |
ChatGPT | 80.8 | 34.1 |
Mixtral 8x7B | 74.4 | 28.4 |
WizardMath-7B-V1.1 | 83.2 | 33.0 |
ToRA-Code 7B | 72.6 | 44.6 |
GPT4-Code + CSV | 84.3 |
参考文献
[1]: Hendrycks D, Burns C, Kadavath S, et al. Measuring mathematical problem solving with the math dataset[J]. arXiv preprint arXiv:2103.03874, 2021.
[2]: Cobbe K, Kosaraju V, Bavarian M, et al. Training verifiers to solve math word problems[J]. arXiv preprint arXiv:2110.14168, 2021.
[3]: Luo H, Sun Q, Xu C, et al. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct[J]. arXiv preprint arXiv:2308.09583, 2023.
[4]: Gou Z, Shao Z, Gong Y, et al. Tora: A tool-integrated reasoning agent for mathematical problem solving[J]. arXiv preprint arXiv:2309.17452, 2023.
[5]: Toshniwal S, Moshkov I, Narenthiran S, et al. OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset[J]. arXiv preprint arXiv:2402.10176, 2024.
[6]: Zhou A, Wang K, Lu Z, et al. Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification[C]//The Twelfth International Conference on Learning Representations. 2023.
欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网:https://mod.wict.pku.edu.cn/
微信社区群:请回复“社区”获取
实验室开源产品图数据库gStore:
gStore官网:https://www.gstore.cn/
GitHub:https://github.com/pkumod/gStore
Gitee:https://gitee.com/PKUMOD/gStore