GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

本文链接：https://blog.csdn.net/weixin_43961909/article/details/144858452

题目

GSM-Symbolic：理解大型语言模型中数学推理的局限性

在这里插入图片描述

论文地址：https://arxiv.org/abs/2410.05229

摘要

大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣，尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现有了显着提高，但它们的数学推理能力是否真的提高了仍不清楚，这引发了人们对报告指标可靠性的质疑。为了解决这些问题，我们对几个最先进的开放和封闭模型进行了大规模研究。为了克服现有评估的局限性，我们引入了 GSM-Symbolic，这是一种改进的基准，由允许生成多种问题的符号模板创建。GSM-Symbolic 可以实现更可控的评估，为衡量模型的推理能力提供关键见解和更可靠的指标。我们的研究结果表明，LLM 在回答同一问题的不同实例时表现出明显的差异。具体而言，当在 GSM-Symbolic 基准中仅改变问题中的数值时，所有模型的性能都会下降。此外，我们研究了这些模型中数学推理的脆弱性，并证明它们的性能会随着问题中子句数量的增加而显著下降。我们假设这种下降是由于当前的 LLM 无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤。当我们添加一个与问题相关的单个子句时，我们观察到所有最先进的模型的性能显著下降（高达 65%），即使添加的子句对得出最终答案所需的推理链没有贡献。总的来说，我们的工作提供了对 LLM 在数学推理方面的能力和局限性的更细致的理解。

简介

大型语言模型 (LLM) 已在各个领域展现出卓越的能力，包括自然语言处理、问答和创造性任务 (Gunter 等人，2024 年；OpenAI，2023 年；Dubey 等人，2024 年；Anil 等人，2023 年；Abdin 等人，2024 年；Rivière 等人，2024 年)。它们执行复杂推理任务的潜力，特别是在编码和数学方面，引起了研究人员和从业人员的极大关注。然而，当前的 LLM 是否真正具有真正的逻辑推理能力仍然是一个重要的研究重点。虽然一些研究强调了令人印象深刻的能力，但仔细研究就会发现它存在很大的局限性。文献表明，LLM 中的推理过程是概率模式匹配，而不是形式推理（Jiang 等人，2024 年）。虽然 LLM 可以匹配更抽象的推理模式，但它们达不到真正的逻辑推理。输入标记的微小变化可能会极大地改变模型输出，这表明存在强烈的标记偏差，并表明这些模型高度敏感且脆弱（Jiang 等人，2024 年；Shi 等人，2023 年）。此外，在需要正确选择多个 token 的任务中，得出准确答案的概率会随着涉及的 token 或步骤数量的增加而呈指数下降，这凸显了它们在复杂推理场景中固有的不可靠性（Schaeffer 等人，2023 年）。

在这里插入图片描述
图 1：GSM-Symbolic 模板创建过程说明。该数据集可用作研究 LLM 假定推理能力的工具，从而能够设计具有更可靠指标的可控数学推理评估。我们的结果表明，所有最先进的 LLM 都表现出显着的性能变化，表明其脆弱性或缺乏推理能力。

数学推理是一项关键的认知技能，支持解决众多科学和实际应用中的问题。因此，大型语言模型 (LLM) 有效执行数学推理任务的能力是推动人工智能及其现实世界应用的关键。GSM8K（小学数学 8K）数据集（Cobbe 等人，2021 年）已成为评估 LLM 数学推理能力的流行基准。虽然它包含带有详细解决方案的简单数学问题，使其适合诸如思想链 (CoT) 提示之类的技术，但它仅提供一组固定问题的单一指标。这种限制限制了对模型数学推理的全面洞察。此外，GSM8K 的流行和普及可能会增加无意中数据污染的风险。最后，GSM8K 的静态性质不允许进行可控实验来了解模型的局限性，例如不同条件下的行为或问题方面和难度级别的变化。

为了解决这些限制，需要一个更加通用和自适应的评估框架——这个框架可以生成不同的问题变体并调整复杂度级别，以更好地探索 LLM 的稳健性和推理能力。这将有助于更深入地了解这些模型在数学推理任务中的优势和劣势。我们做出以下贡献：

我们引入了 GSM-Symbolic，这是一个增强的基准，它使用符号模板生成 GSM8K 问题的不同变体（第 3 节），如图 1 所示。这使得能够对 LLM 在各种设置下的性能进行更细致和可靠的评估，超越单点准确度指标。我们对 25 个最先进的开放和封闭模型进行的大规模研究为 LLM 在数学推理任务中的行为提供了重要的见解。
我们质疑目前报告的 GSM8K 结果的可靠性，并证明 LLM 的性能可以看作是一种分布，在同一问题的不同实例之间存在不合理的差异。我们表明，所有模型在 GSM-Symbolic 上的性能都会下降（第 4.1 节），这暗示可能存在数据污染。
我们表明，LLM 对诸如专有名词之类的表面元素的变化表现出更强的鲁棒性，但对数值的变化非常敏感（第 4.2 节）。我们表明，随着子句数量的增加，性能下降和方差也会增加，这表明 LLM 的推理能力难以应对日益增加的复杂性（第 4.3 节）。
最后，我们进一步质疑 LLM 的推理能力，并引入 GSM-NoOp 数据集。

通过向问题添加看似相关但最终不相关的信息，我们表明所有最先进的模型的性能都大幅下降（高达 65%）（第 4.4 节）。这揭示了模型在辨别相关信息以解决问题的能力方面存在一个关键缺陷，可能是因为它们的推理不是常识术语中的形式化，而主要是基于模式匹配。我们表明，即使提供同一问题的多个示例或包含类似不相关信息的示例，LLM 也难以克服 GSM-NoOp 带来的挑战。这表明它们的推理过程中存在更深层次的问题，无法通过上下文镜头来缓解，需要进一步研究。总体而言，我们的工作全面了解了 LLM 在数学推理中的局限性。我们的结果强调需要更可靠的评估方法和进一步研究大型语言模型的推理能力。

相关工作：推理和语言模型

逻辑推理是智能系统的关键特征。大型语言模型 (LLM) 的最新进展已在各个领域显示出巨大的潜力，但它们的推理能力仍然不确定且不一致。许多工作通过研究这些模型如何解决需要逻辑推理的任务来研究 LLM 是否真正具有推理能力。一个有趣的方向专注于对 Transformer 执行的计算进行建模。例如，人们将注意力和前馈模块等组件与简单的计算原语进行了比较（Weiss 等人，2021；Zhou 等人，2024）。Delétang 等人（2023）证明了 Transformer 无法泛化非常规任务，并表明结构化内存（例如，记忆带）对于处理复杂任务是必要的。这与 Chain-of-Thought (CoT) 提示的有效性（Wei 等人，2022）以及使用 LLM 的暂存器作为中间计算的额外内存有关。总体而言，目前的结果表明，虽然 Transformer 架构存在局限性，并且缺乏解决跨多个复杂度类别的问题，这些限制可以通过额外的内存（例如暂存器）来缓解（Liu 等人，2024 年）。然而，这仍然需要生成大量的 token 来解决问题（Peng 等人，2024 年；OpenAI，2024 年）。虽然这些工作提供了对 transformer 理论计算复杂性的见解，但在实践中，这些 LLM 是否可以执行形式逻辑推理来解决任务仍不清楚。

有大量研究表明，LLM 中的推理过程不是形式化的（Kambhampati，2024 年；Valmeekam 等人，2022 年，2024 年），即使这些模型似乎理解符号并且可以在一定程度上使用它们（Boix-Adserà 等人，2024 年）。相反，LLM 可能会在训练期间执行一种概率模式匹配和搜索的形式，以找到最接近的数据，而没有正确理解概念。虽然这个过程超越了对单词的简单记忆，并且模型能够搜索和匹配更抽象的推理步骤，但它仍然达不到真正的形式推理。例如，Jiang 等人 (2024) 在统计保证下表明，大多数 LLM 仍然难以进行逻辑推理，这是由于强烈的 token 偏差，当输入的单个 token 发生变化时，模型的推理输出也会发生变化。

这与我们的结果一致，这表明模型在同一数学问题的不同实例上的表现可能因实例而异。Li 等人 (2024b) 证明单个 Transformer 层可以学习一个最近邻，这可以解释为什么模型的推理对输入 token 高度敏感。Schaeffer 等人 (2023) 认为，当一项任务需要正确发出多个 token 时，正确回答的概率会随着 token 数量的增加呈指数下降。 Dziri 等人 (2023) 将推理任务表示为计算图，并发现完整计算子图在训练数据中出现的频率远高于正确预测的频率。Razeghi 等人 (2022) 显示了训练频率与测试表现之间的相关性，支持了模式匹配假设。

我们的工作基于这些发现，引入了 GSM-Symbolic，这是一种改进的基准，使用符号模板生成不同的问题变体。这使我们能够研究超越单一性能指标的数学推理能力。通过评估不同实例和难度级别的表现，我们全面了解了 LLM 的推理能力。我们的研究结果支持了当前 LLM 无法进行形式数学推理的假设，并为进一步研究这一重要主题铺平了道路。

GSM-Symbolic

GSM8K 数据集 (Cobbe 等人，2021) 包括 8000 多个小学数学问题和答案，分为 7473 个训练示例和 1319 个测试示例。如图 1 所示，问题相对简单，只需要掌握四种主要算术运算。但是，由于 GSM8K 是一个单一的、流行的测试集，因此存在数据污染的风险，并且问题的微小修改可能会显著改变性能。这些限制促使人们努力生成新的数据集和变体。iGSM（Ye 等人，2024 年）是一个通过合成管道创建的数学数据集，该管道以分层和图形结构捕获参数依赖关系。GSM-IC（Shi 等人，2023 年）表明，不相关的上下文可能会损害 LLM 的性能，重点是提示技术。然而，我们的工作提出了一个更根本的问题：即使对同一个问题给出多次提示，LLM 也会遇到困难，这表明解决问题的挑战更深，无法通过少量提示或对看不见的干扰或相同或不同难度级别的变化进行微调来解决。 GSM-Plus（Li 等人，2024a）引入了 GSM8K 问题的变体，但缺乏符号模板，并且具有固定的大小和难度。GSM1K（Zhang 等人，2024）反映了 GSM8K 的风格和复杂性，以识别