论文导读 | 增强大模型的数学能力

最新推荐文章于 2025-05-06 09:09:01 发布

PKUMOD

最新推荐文章于 2025-05-06 09:09:01 发布

阅读量1.9k

点赞数 25

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_48167662/article/details/139005866

版权

数学能力是人类智能的一项基础技能，在自然科学、计算机科学、医学、金融等不同领域都发挥重要作用。因此也是现在评价大模型能力的重要指标。

Benchmark

现在评价大模型数学能力最常用的两个评测数据集分别是MATH和GSM8K

MATH Dataset (2021-03) [1]

MATH数据集是一个由加州大学伯克利分校的研究团队开发的新数据集，专门用于衡量机器学习模型解决数学问题的能力。该数据集包含12,500个来自高中数学竞赛的挑战性问题，每个问题都有一个完整的逐步解决方案，这使得模型可以学习如何生成答案推导和解释。

MATH数据集的问题覆盖了七个主要的数学领域，包括代数、几何、数论等，并且每个问题都标记了难度等级，从1到5，这允许对模型在不同难度和科目上的问题解决能力进行细致的评估。此外，数据集中的问题和解决方案都使用了LATEX和Asymptote语言进行了一致的格式化，使得模型能够处理图形和图表，这是首次在数学问题解决领域中实现。

GSM8K (2021-10, OpenAI) [2]

GSM8K数据集是由OpenAI推出的，旨在评估和提升大型语言模型在解决数学文字问题方面的能力。该数据集包含8500个高质量的、语言多样化的小学数学问题，这些问题需要2至8步的计算来解决，主要涉及基本的算术运算。

GSM8K数据集的设计原则包括高质量、高多样性、适中难度和自然语言解决方案。这些问题是由人类问题编写者创建的，并通过广泛的质量控制来确保问题的质量。此外，数据集提供了问题的自然语言解决方案，而不是纯数学表达式，这有助于深入了解大型语言模型的内部推理过程。

WizardMath (2023-08) [3]

文章介绍了一个名为WizardMath的新型大型语言模型，该模型专为提升数学推理能力而设计。WizardMath基于Llama-2模型，通过一种创新的方法——从Evol-Instruct反馈中学习的强化学习（Reinforcement Learning from Evol-Instruct Feedback, RLEIF）进行微调，以增强其在数学问题解决方面的表现。

在方法论上，RLEIF方法包含三个关键步骤