论文导读 | 增强大模型的数学能力

数学能力是人类智能的一项基础技能,在自然科学、计算机科学、医学、金融等不同领域都发挥重要作用。因此也是现在评价大模型能力的重要指标。

Benchmark

现在评价大模型数学能力最常用的两个评测数据集分别是MATH和GSM8K

MATH Dataset (2021-03) [1]

MATH数据集是一个由加州大学伯克利分校的研究团队开发的新数据集,专门用于衡量机器学习模型解决数学问题的能力。该数据集包含12,500个来自高中数学竞赛的挑战性问题,每个问题都有一个完整的逐步解决方案,这使得模型可以学习如何生成答案推导和解释。

图片

MATH数据集的问题覆盖了七个主要的数学领域,包括代数、几何、数论等,并且每个问题都标记了难度等级,从1到5,这允许对模型在不同难度和科目上的问题解决能力进行细致的评估。此外,数据集中的问题和解决方案都使用了LATEX和Asymptote语言进行了一致的格式化,使得模型能够处理图形和图表,这是首次在数学问题解决领域中实现。

GSM8K (2021-10, OpenAI) [2]

GSM8K数据集是由OpenAI推出的,旨在评估和提升大型语言模型在解决数学文字问题方面的能力。该数据集包含8500个高质量的、语言多样化的小学数学问题,这些问题需要2至8步的计算来解决,主要涉及基本的算术运算。

图片

GSM8K数据集的设计原则包括高质量、高多样性、适中难度和自然语言解决方案。这些问题是由人类问题编写者创建的,并通过广泛的质量控制来确保问题的质量。此外,数据集提供了问题的自然语言解决方案,而不是纯数学表达式,这有助于深入了解大型语言模型的内部推理过程。

WizardMath (2023-08) [3]

文章介绍了一个名为WizardMath的新型大型语言模型,该模型专为提升数学推理能力而设计。WizardMath基于Llama-2模型,通过一种创新的方法——从Evol-Instruct反馈中学习的强化学习(Reinforcement Learning from Evol-Instruct Feedback, RLEIF)进行微调,以增强其在数学问题解决方面的表现。

在方法论上,RLEIF方法包含三个关键步骤

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值