论文翻译：GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl

CSPhD-winston-杨帆

已于 2024-07-26 17:42:37 修改

阅读量809

点赞数 7

分类专栏：论文翻译 LLMs-鲁棒性智慧教育文章标签：人工智能算法

于 2024-07-25 10:17:07 首次发布

本文链接：https://blog.csdn.net/whiffeyf/article/details/140679920

版权

论文翻译同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

LLMs-鲁棒性

18 篇文章 1 订阅

订阅专栏

智慧教育

18 篇文章 0 订阅

订阅专栏

GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

GSM-PLUS: 一个全面评估大型语言模型作为数学问题解决者鲁棒性的基准测试

摘要

大型语言模型（LLMs）在各种数学推理基准测试中取得了令人印象深刻的表现。然而，关于这些模型是否真的理解并应用数学知识，还是仅仅依赖于数学推理的捷径，争论越来越多。一个关键且频繁出现的证据是，当数学问题稍有变化时，LLMs可能会出现不正确的行为。这激励我们通过测试广泛的数学问题范围，包括GSM8K（Cobbe等人，2021年）、高中数学MATH（Hendrycks等人，2021年）和大学数学定理问答Theoremqa（Chen等人，2023年），来评估LLMs数学推理能力的鲁棒性。关于广泛使用的GSM8K基准测试，像GPT-4这样的专有模型和尖端的开源模型分别报告了超过90%和80%的准确率。然而，研究界关于这些模型是否真的理解并应用数学知识，还是仅仅基于表面模式（Patel等人，2021年）解决数学问题，甚至由于训练数据泄露（Golchin和Surdeanu，2023年）的争论从未停止过。明显的证据支持这种担忧。图1显示了GPT-3.5-turbo在GSM8K数据集上执行多步推理的示例案例，其中LLMs有时会犯人类不会犯的简单错误（Zhou等人，2023b；Shi等人，2023）。仅仅因为GPT-3.5-turbo在区分“离开”和“返回”的方向上存在困难，导致运算符的误用。
我们引入了对抗性初中数学（GSM-PLUS）数据集，这是GSM8K的扩展，增加了各种数学扰动。我们在25个LLMs和4种提示技术上的实验表明，尽管LLMs表现出不同程度的数学推理能力，但它们的表现远非鲁棒。特别是，即使在GSM8K中已经解决的问题，当添加新的陈述或问题目标发生变化时，LLMs也可能会出错。我们还探讨了是否可以通过组合现有的提示方法来实现更鲁棒的性能，在其中我们尝试了一种迭代方法，该方法基于其推理目标和计算结果生成并验证每个中间思考。

1 引言

数学推理是人工智能发展的重要证明（Lake等人，2017）。它需要严谨的问题理解、策略制定和计算执行能力（Baroody，1987；Verschaffel等人，1999）。大型语言模型（LLMs）（Brown等人，2020；Touvron等人，2023a）在包括初中数学GSM8K（Cobbe等人，2021年）、高中数学MATH（Hendrycks等人，2021年）和大学数学Theoremqa（Chen等人，2023年）在内的各种数学基准测试中表现出色。关于广泛使用的GSM8K基准测试，像GPT-4这样的专有模型和尖端的开源模型分别报告了超过90%和80%的准确率。然而，研究界关于这些模型是否真的理解并应用数学知识，还是仅仅基于表面模式（Patel等人，2021年）解决数学问题，甚至由于训练数据泄露（Golchin和Surdeanu，2023年）的争论从未停止过。明显的证据支持这种担忧。图1展示了GPT-3.5-turbo在GSM8K数据集上执行多步推理的示例案例，其中LLMs有时会犯人类不会犯的简单错误（Zhou等人，2023b；Shi等人，2023）。这仅仅是因为GPT-3.5-turbo在区分“离开”和“返回”的方向上存在困难，导致运算符的误用。

为了应对这些问题，我们提倡一个更严格和对抗性的评估基准，可以系统地研究LLMs的数学推理能力。我们的基准测试揭示了当前模型报告的准确率与我们设置中观察到的准确率之间高达20%的差距，而人类的性能由于问题的固有难度水平没有变化而保持不变。在这项工作中，我们对最广泛使用的GSM8K数据集进行了扰动，产生了一个对抗性的初中数学数据集GSMPLUS。受到Polya原理中提到的解决数学问题的能力分类（Polya，2004）的启发，我们确定了5个视角来指导GSM-PLUS的开发：(1) 数值变化指的是改变数值数据或其类型（例如，从整数到小数）。(2) 算术变化指的是对数学问题进行反向或引入额外的操作，如加法、减法、乘法和除法。(3) 问题理解指的是重新表述数学问题的文本描述。(4) 分散项插入指的是在问题中插入与主题相关但无用的语句。(5) 批判性思维侧重于在问题缺少必要陈述时提出问题或怀疑的能力。基于GSM8K的1,319个测试问题，我们为每个问题创建了八种变体，产生的GSM-PLUS包含了10,552个问题变体。通过使用每个问题及其八种变体测试LLMs，GSM-PLUS可以促进对LLMs在解决数学问题时鲁棒性的全面评估。

在这里插入图片描述
表1：初中数学数据集概览。?表示专门设计来评估模型性能鲁棒性的数据集。不同的颜色代表不同类型的扰动：数值替换；数字扩展；整数-小数-分数转换；添加运算；反转运算；问题理解；分散项插入；批判性思维。

我们使用GSM-PLUS来评估25种不同模型规模和任务特定微调的LLMs的鲁棒性，以及4种流行的提示技术，以获得LLMs的数学推理结果。总的来说，我们发现LLMs能够准确地解决GSM8K问题，但在回答GSM-PLUS中的变化时却遇到了困难。我们详细的发现有三个方面：

任务特定优化，例如数学SFT，在基准测试上通常可以获得更好的准确率，而鲁棒性更多地取决于基础模型的选择和微调数据集（§5.1）。
当面对批判性思维、算术变化和分散项插入时，LLMs的表现要差得多，但它们对数值变化和问题理解的扰动相对更有弹性（§5.2）。
所有研究的提示技术都显示出缺乏鲁棒性，特别是对于算术变化和批判性思维。我们进一步探索了一种组合提示方法，借鉴了其他领域的进展，该方法涉及迭代生成和验证每个推理思考，并在GSM8K和GSM-PLUS上都表现出良好的性能（§5.4）。

基于这项工作的努力和结果，我们敦促进一步研究LLMs在数学领域的应用，不仅要提高它们的数学推理性能，还要提高它们的性能鲁棒性。

3 GSM-PLUS 数据集

为了全面评估LLMs在利用数学相关技能方面的鲁棒性，我们以GSM8K数据集为基础构建了一个对抗性数据集GSM-PLUS。受Polya原理的启发，我们从五个不同的角度设计了八种类型的扰动，以测试LLMs在数学推理中的鲁棒性，如图2所示。

3.1 扰动类别

数值变化测试LLMs是否通过改变数值数据而被过度拟合，并观察预测行为。我们定义了以下三个数值变化子类别：

数值替换：用具有相同位数的另一个数字替换数值数据，例如用“20”替换“16”。
数字扩展：增加数字的位数，例如用“1600”替换“16”。
整数-小数-分数转换：使用不同类型的数字表示，而不仅仅是整数，例如将“2”转换为“2.5”。

算术变化侧重于模型根据问题要求应用算术操作的灵活性。我们定义了以下两个算术变化子类别：

添加运算：增加种子问题的陈述，但限制在加法、减法、乘法和除法中的操作。
反转运算：将种子问题的一个陈述转换为生成变化中的查询答案。例如，种子问题中的陈述“每个新鲜鸭蛋2美元”被转换为问题句子“每个鸭蛋的成本是多少？”。

问题理解重新表述问题，以调查问题措辞对模型理解的潜在影响。

分散项插入引入与主题相关但无用的带有数字的句子，以测试模型的陈述评估能力。

批判性思维要求模型能够在数学推理过程中提出问题或怀疑，而不是盲目奉承（Wei等人，2023a）。这意味着如果种子问题中移除了一个重要陈述，模型应该明确指出这个问题。

以前的发现表明，LLMs通常对数值变化（Bubeck等人，2023）和问题理解（Zhou等人，2023b）具有鲁棒性，但对分散项插入敏感（Wei等人，2023b）。其他扰动，如算术变化和批判性思维，在数学领域由于注释困难而尚未充分探索，但所有这些对人类解决问题都很重要。我们的初步实验发现，模型在这些扰动上表现不佳。我们的工作提供了一个全面的数据集和对精细的八种扰动中数学推理鲁棒性的评估。

在这里插入图片描述

3.2 数据集构建

在先前的研究中（Norberg等人，2023年；Yu等人，2023a），GPT-4被专门用来构建变体。我们最初利用GPT-4的问题重写能力来生成问题变体，然后提示它为这些变体生成答案候选。然而，我们发现GPT-4并不总是可靠的：它可能会（i）未能将扰动纳入变体中，例如，在“分散项插入”中，新增加的句子影响了最终答案，（ii）包括超出指定扰动的额外变化，（iii）生成无效问题，（iv）显著增加问题的难度，超出了初中水平，或者（v）生成错误的答案。
为确保数据质量，所有由GPT-4生成的问题变体和答案都通过一个严格的过程由人工注释者进一步细化。注释者首先需要注释24个变体作为资格考试，以确保他们注释的准确性。为了进一步控制注释质量，注释者被分配成批的工作量，每批包含50个种子问题。在整个注释过程中提供即时反馈。具体来说，10%的变体至少由3名注释者交叉注释，具有高达90.02%的高注释一致性率，证明了人工修订的可靠性。总的来说，人工注释者修订了GPT-4生成的18.85%的变体，凸显了人工修订的重要性。附录中的表7提供了跨扰动类型的详细统计数据。人工注释的详细信息可以在附录B.2中找到。
鉴于GPT-4参与了问题重写过程，我们进一步分析了可能引入的问题变体的潜在偏好偏见。表3显示GPT-4在自身生成的问题变体和由人工纠正的问题变体上表现出相似的性能，表明固有偏见对模型性能的影响最小。尽管成功生成了变体，GPT-4仍然可以提供错误的答案，表明GPT-4的问题重写能力并不完全与其问题回答能力一致。

3.3 评估指标

我们采用性能下降率（PDR）指标来衡量与初始问题上的性能相比，在问题变体上的相对性能下降。
[ \text{PDR} = 1 - \frac{\sum_{(x,y) \in \text{Da}} I[\text{LM}(x), y]}{\lvert \text{Da} \rvert} \Bigg/ \frac{\sum_{(x,y) \in \text{D}} I[\text{LM}(x), y]}{\lvert \text{D} \rvert} ]，公式（1），
其中Da和D分别代表GSM-PLUS和GSM8K数据集。此外，我们测量准确解决对的比例（ASP），其中种子问题x及其变体x’都被特定的LLM正确回答。
[ \text{ASP} = \frac{\sum_{x,y;x’,y’} I[\text{LM}(x), y] \cdot I[\text{LM}(x’), y’]}{N \cdot \lvert \text{D} \rvert} ]，公式（2），
每个D中的(x, y)样本在N个扰动中有N个样本对(x, y; x’, y’)。

在这里插入图片描述

4 实验设置

我们比较了代表性LLMs在GSM8K和GSM-PLUS数据集上的准确性，并使用PDR和ASP指标评估在多样化数学推理中的鲁棒性。
我们考虑了闭源基础模型，即GPT-4（OpenAI，2023年）和GPT-3.5-Turbo（OpenAI，2022年），开源基础模型，即Mistral（Jiang等人，2023年），LLaMA2（Touvron等人，2023b年），和CodeLlama（Roziere等人，2023年），以及特别为数学推理设计的开源SFT模型，即MetaMath（Yu等人，2023a年），Abel（Chern等人，2023年），ToRA（Gou等人，2023年），MAmmoTH（Yue等人，2023年），和SEGO（Zhao等人，2023年）。解码温度设置为0以进行确定性预测。开源基础模型使用8个示例进行推断。我们在所列LLMs的GSM8K上的结果与它们之前报告的准确性相匹配。我们还通过让通过资格考试的合格人工注释者参与，建立了人类表现的基线。所有注释者至少拥有学士学位。更多细节可以在附录C.1中找到。

5 实验

5.1 GSM-PLUS上的总体结果

我们首先评估LLMs在GSM8K和GSM-PLUS上是否达到类似的性能。结果如表4所示。我们观察到所有研究的LLMs性能显著下降。所有模型的ASP明显低于它们在GSM8K数据集上的准确性。GPT-4显示出最高水平的鲁棒性，PDR最小为8.23%。CodeLlama显示出最大的PDR（7B、13B和34B分别为40.56%、39.71%和34.27%），超过了其基础模型LLaMA-2-7B（39.49%）和在其上微调的数学SFT模型，例如SEGO-7B（34.91%）。程序仅LLMs的有限鲁棒性表明自然语言指导和任务特定微调对鲁棒数学推理的必要性。我们将在以下进行一些详细的比较。

数学SFT模型与基础模型的比较。
尽管数学微调模型在GSM8K和GSM-PLUS上的表现优于其基础模型，但这些SFT模型的PDR并不显著小于其基础模型。例如，LLaMa-2-13B和LLaMa-2-70B的PDR分别为34.76%和29.40%，而随后的SFT模型，Abel-13B和MAmmoTH-70B的PDR分别为31.97%和29.62%，表明数学SFT过程可能难以提高模型解决数学问题的鲁棒性。

数学SFT模型之间的比较。
在数学SFT模型中，较大的模型通常显示比较小模型更低的PDR。例如，Abel-7B、Abel-13B和Abel70B的PDR分别为37.67%、31.97%和28.52%。值得注意的是，良好的基础模型对于随后的数学SFT模型的准确性和鲁棒性都有帮助。MetaMath-Mistral-7B（在Misral-7B上进行SFT，其PDR为33.86%）比其他类似或更大尺寸的数学SFT模型显示出显著的稳定性（PDR为27.69%），例如MetaMath-7B（在LLaMa-2-13B上进行SFT，其PDR为34.76%），PDR为33.53%。同样，MAmmoTH-Coder-13B（在CodeLLaMA13B上进行SFT，其PDR为41.24%）与MAmmoTH-13B（在LLaMA-2-13B上进行SFT，其PDR为34.76%）相比，显示出更低的准确性下降（32.25% vs. 34.58%）。

SFT数据集的有效性。来自同一基础模型的SFT模型在性能稳定性方面存在显著差距。例如，在MetaMathQA、Abel-data、TORA-CORPUS和MathInstruct数据集上微调后的LLaMA-2-7B，其PDR分别为33.53%、37.67%、35.39%和39.17%。这表明SFT数据集的关键影响。

在这里插入图片描述
图2：8种扰动类型中PDR（性能下降率）的分布。线下方的条形表示与在GSM8K上的性能相比，相应扰动的性能有所提高。

5.2 多样化问题变体中LLMs的性能

接下来，我们评估模型在八个问题变体中的性能稳定性（见图2）。
详细的性能下降和特定案例在附录中的图6和表C.3提供。
所有模型与人类相比在批判性思维（紫色）、算术变化中的加法运算和反转运算（蓝色）、分散项插入（粉色）以及整数-小数-分数转换（橙色）方面显示出较差的鲁棒性。
对于数值替换和问题理解，模型保持了它们的性能，甚至显示出轻微的提高。基于程序的模型（例如，MAmmoTH-Coder-13B，PDR为11.80%）在数值变化中表现出比基于自然语言的模型（例如，Abel-13B，PDR为14.03%）更大的鲁棒性。然而对于非数值变化，例如分散项插入，基于自然语言的模型更为稳定，两种模型的PDR值分别为23.2%和16.1%。下面提供了每种变体的详细分析。

批判性思维。除了人类和闭源模型外，其他模型在从问题中移除关键陈述时的性能显著下降（如图6所示，接近100%）。在这种情况下，它们可能会生成一个幻觉的解决方案，而不是承认缺少所需信息。

算术变化。对于陈述数量增加的问题（加法运算），模型表现出有限的能力。除了GPT-4和GPT-3.5-Turbo外，大多数模型，无论大小和输出格式，经历了超过40%的准确率下降。尽管从不同角度灵活推理很重要，但当问题陈述被反转时（反转运算），所有模型都显示出显著的PDR值。这一发现与Deb等人（2023年）的观察一致，即当模型进行反向推理时，其性能显著下降。

分散项插入。较大的模型表现出更大的抵抗干扰的能力，例如，Abel70B的PDR值低于GPT-3.5-Turbo。
基于程序的模型在插入分散项时趋于敏感。例如，MammoTH13B（40.6%）和SEGO-13B（43.9%）的PDR值高于基于自然语言的模型MetaMath-13B（39.4%）和Abel-13B（31.8%）。

数值变化。模型在常规数值替换和数字扩展方面的性能显示出最小的波动。LLaMA-2-13B甚至在数值替换上显示出轻微的提高（2.1%）。相反，即使是基于程序的模型，整数-小数-分数转换也会导致显著下降。

问题理解。当GPT-4重新表述问题时，大多数LLMs显示出鲁棒的性能，这有点令人惊讶，因为模型通常对问题措辞很敏感。

5.3 数学推理的可转移性

前几节展示了从GSM8K和GSM-PLUS的完整集合中获得的结果。这里，我们根据问题是否被正确回答来划分整个集合。这种划分允许我们研究一个来自GSM8K的种子问题，当被LLM成功解决时，是否增加了正确回答其在GSM-PLUS中的变体的可能性，反之亦然（高ASP值）。如果这一断言成立，我们可以说LLMs在这个特定的数学问题子集上表现出了鲁棒的性能，即使不是在整个数据集中。在我们的设置中，每个GSM8K问题及其在GSM-PLUS中的变体被转换成八对。每个分区集的分布如图3所示。
在6个最右边的数学模型中，Abel-70B以最高的ASP值（55.31%）脱颖而出，甚至超过了GPT-3.5-Turbo的ASP（51.36%）。红色条形图的存在，即种子问题被正确解决但其变体没有，表明大多数模型的可转移性有限。虽然种子问题的性能各不相同（紫色和红色条形图的高度），它们的性能可转移性显示出相似的水平（红色条形图的高度）。这意味着现有的基准测试对于准确评估模型在数学推理中的真实能力是不充分的。高准确性并不一定表示强大的推理鲁棒性。

值得注意的是，一小部分种子问题没有被解决，但其变体被正确回答（黄色条形图）。这进一步意味着模型在某些样本上的数学推理无能并不总是由这些样本中的失败所暗示的。全面的评估对于评估模型的微妙性能是有价值的。
在这里插入图片描述
图3：LLMs在GSM8K和GSM-PLUS的问题对之间的推理可转移性。紫色（两者都正确）和蓝色（两者都错误）的条形图代表模型行为的一致性，而红色（GSM8K正确&GSM-PLUS错误）和黄色（GSM8K错误&GSM-PLUS正确）的条形图代表模型行为的不一致性。紫色和红色条形图的高度表示正确解决的GSM8K问题的数量。

5.4 通过提示增强LLMs解决数学问题鲁棒性？

如第2节回顾所述，各种要求LLMs生成其显式推理步骤的提示方法已经证明对数学推理有所改进，例如链式思维提示，即COT（Wei等人，2022年；Kojima等人，2022年），和思维程序提示，即POT（Gao等人，2023年；Chen等人，2022年）。同样，最少至最多提示（LTM，Zhou等人，2022年）通过将复杂问题分解为一系列子问题来简化问题解决过程。此外，基于复杂度的COT（Fu等人，2022年）使用具有更多步骤的示例作为上下文演示，并增强了LLMs的推理能力。上述进展激励我们探索使用提示方法是否可以帮助LLM在GSM8K的种子问题和GSM-PLUS的八个变体上获得相当的表现。

哪些提示更具鲁棒性？我们选择了四个代表性的LLMs：GPT-4和GPT-3.5-Turbo作为表现最佳的指令调整模型，LLaMA-2-70B作为最佳的开源通用模型，MAmmoTH-70B作为在LLaMA-2-70B上微调的SFT模型。然后我们随机选择了120个种子问题和960个变体的子集，以评估将不同提示方法应用于这些LLMs时的性能。结果在图4中显示。总体而言，基于复杂度的COT对GPT-4、GPT-3.5-Turbo和LLaMA-2-70B显示出优越的性能，而POT在所有问题变体中显示出最小的有效性。COT和LTM表现出类似的模式，在问题理解和数值替换等变体中表现优异，但在分散项插入和加法运算中表现不佳。对于MAmmoTH，由于任务特定训练，四种提示的性能相似。研究的提示技术中没有一个足够鲁棒，能够在所有变体中获得与GSM8K上的性能一致的一致性能。

组合提示。基于图4的结果，我们想探索如何基于现有提示方法增强鲁棒性。我们发现LLMs经常在解决方案的中间阶段忽略步骤或犯错误。对于第一个问题，一个简单的策略是提示LLMs迭代地分解复杂问题，如在多跳问答（Khot等人，2022年）中演示的那样。为了解决第二个问题，我们试图让LLMs为它们的每次生成提供反馈，这在多个领域中已被证明是有效的（Madaan等人，2023年；Yu等人，2023b年）。鉴于这些观察，我们尝试研究其他领域的方法是是否可以对数学推理有益，并探索一种组合提示方法COMP，如图5所示。

在这里插入图片描述
图4：使用不同提示技术时，LLMs在各种问题变体和GSM8K问题上的准确性有所不同。基于复杂度的CoT和LTM分别使用了8个和1个上下文示例。

图5：一种交替生成子目标和执行相应计算的组合提示方法的示意图。

具体来说，LLM首先被提示提取与数字相关的关键前提，作为辅助上下文（提示1）。基于问题和前提，LLM被迭代指导生成一个目标（提示2）并计算该目标（提示3），对每个推理思考进行。对于每个思考，其目标和计算并查询LLM以确定是否获得了期望的答案（提示4）。如果没有，我们将进行生成下一个思考。完整的提示列在附录C.4中。

如表5所示，COMP通过迭代生成和验证提高了模型在各种变体类型中的性能。与LTM相比，COMP在GSM8K上显著提高了3.4%，在GSM-PLUS上提高了4.7%。由于自洽（SC）技术（Wang等人，2022年）可以通过多数投票进一步提高性能，我们实现了一种基于集成的方法COMP + SC，它对产生相同子目标和计算的中间思考进行了边际化。与基于集成的COT相比，即COT + SC，COMP + SC在组合提示上显示出显著的改进。见附录C.7和附录C.8，了解八种扰动和模型预测的准确性。
在这里插入图片描述
表5：使用不同提示技术的GPT-3.5-Turbo的性能。COT + SC方法通过采样5个预测来汇总每个答案。

尽管组合提示提高了种子问题及其变体的性能，但它并没有弥合LLMs在标准基准和对抗性基准之间的性能差距。应该更加致力于开发鲁棒的模型。

6 结论和讨论

在这项工作中，我们介绍了GSM-PLUS，这是一个旨在系统分析LLMs解决数学问题鲁棒性的基准。我们检查了各种扰动类型，以评估LLMs在理解和利用与数学相关的知识方面的性能稳定性。我们对25个著名模型的评估发现，与它们在标准基准上的表现相比，当在成功解决的数学问题中引入扰动时，性能显著下降。

这种差异为未来研究指明了明确的方向：（1）系统评估模型在多样化数学相关技能上的表现；（2）开发能够一致且灵活地执行数学推理的模型，同时对微小变化保持弹性。尽管组合提示可以提高LLMs的性能，

它在性能和鲁棒性方面的影响是有限的。必须承认，大多数LLMs，特别是开源模型，在数学领域的表现仍然大大落后于人类，即使很小的错误也可能导致任务失败。总的来说，GSM-PLUS旨在促进对LLMs在数学推理方面的详细评估和理解。数据集和评估工具将被发布。

局限性
我们工作的局限性如下。
• 在这项工作中，我们主要关注小学数学推理的鲁棒性，鉴于包括开源模型在内的各种LLMs取得了有希望的结果。评估其他教育水平数学推理的鲁棒性作为未来的工作。
• 为了评估鲁棒性，我们比较了模型在GSM8K和GSM-PLUS上的答题准确性，并使用了两个定制的指标。然而，我们没有调查解决方案链的准确性，因为设计一个可靠的度量标准存在挑战。
• GSM-PLUS专注于评估LLMs在各种扰动下解决数学问题鲁棒性，但没有调查解决问题失败背后的原因。

伦理声明
我们遵守伦理守则。在这项工作中没有使用任何私人数据或非公开信息。

CSPhD-winston-杨帆

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl

大型语言模型（LLMs）在各种数学推理基准测试中取得了令人印象深刻的表现。然而，关于这些模型是否真的理解并应用数学知识，还是仅仅依赖于数学推理的捷径，争论越来越多。一个关键且频繁出现的证据是，当数学问题稍有变化时，LLMs可能会出现不正确的行为。这激励我们通过测试广泛的数学问题范围，包括GSM8K（Cobbe等人，2021年）、高中数学MATH（Hendrycks等人，2021年）和大学数学定理问答Theoremqa（Chen等人，2023年），来评估LLMs数学推理能力的鲁棒性。
复制链接

扫一扫

专栏目录