Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models

三月七꧁ ꧂

于 2024-08-05 10:09:58 发布

阅读量611

点赞数 22

分类专栏：论文合集文章标签：语言模型 langchain 人工智能 microsoft 自然语言处理

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140918265

版权

论文合集专栏收录该内容

26 篇文章 0 订阅

订阅专栏

文章目录

题目

LLM 够先进了吗？大型语言模型的难题解决基准

在这里插入图片描述

论文地址：https://arxiv.org/abs/2305.15074
项目地址：https://github.com/dair-iitd/jeebench

摘要

大型语言模型 (LLM) 在现有推理基准上的表现在过去几年中得到了显著提升。为此，我们推出了 JEEBENCH，这是一个更具挑战性的基准数据集，用于评估 LLM 的解决问题的能力。我们从竞争激烈的 IIT JEE-Advanced 考试中精选了 515 个具有挑战性的预工程数学、物理和化学问题。在深度领域知识的基础上进行长远推理对于解决此基准中的问题至关重要。我们对各种开源和专有模型的评估表明，即使使用了自洽、自我改进和思维链提示等技术，最高性能也低于 40%。最佳模型 GPT-4 的典型故障模式是代数运算错误、难以将抽象概念准确地归结为数学方程式以及无法检索相关的领域特定概念。我们还观察到，仅通过提示，GPT-4 无法评估因错误答案的负面标记而引入的风险。为此，我们开发了一种事后置信度阈值方法，以克服自洽性，从而实现有效的响应选择。我们希望我们具有挑战性的基准能够指导未来使用 LLM 解决问题的研究。

在这里插入图片描述

自上个十年以来，大型语言模型 (LLM) 的能力在包括推理在内的大量任务上不断提高。最近，GPT-4 在代码生成、算术和常识推理 (Bubeck 等人，2023) 等任务上比 GPT-3 有了显着改进，在标准推理和 STEM 基准测试中表现出色，例如 GSM-8K、MATH、MMLU 和 ScienceQA LLM 能力的提升需要更严格的基准测试。我们推出了 JEEBENCH，这是一项由 515 个问题组成的基准测试，这些问题需要复杂的逻辑和数学推理，以及对工程前水平的物理、化学和数学的深入领域知识。这些问题是从过去 8 届联合入学考试 (JEE)-高级考试中精选出来的，该考试每年在印度举行，作为印度顶尖工程学院：IIT 的入学考试。考试旨在耗时、难度大，选择率较低（约 5%）。

数据集中的问题需要复杂的相互作用，即使用多个高级领域特定概念，将它们根植于数学方程/约束中，然后进行代数运算和算术运算。图 1 是数据集中的一个问题以及专家的解决方案。在这个问题中，理想的解决方案涉及检索适当的概念：静态平衡规则，将概念根植于特定问题实例的数学方程中，然后求解方程以找到最终答案。其他领域特定概念的例子可以是平衡氧化还原反应（化学）、进入结点的电流等于离开结点的电流（物理）和分部积分（数学）。更多此类示例可在附录 A.2 中找到。我们对这些问题的当代开源和专有 LLM 进行了定性和定量研究，并强调了进一步研究的途径。我们的分析表明，与其他模型相比，GPT-4 的性能无与伦比。它在相当多的问题中展示了长远的推理能力和操纵复杂代数方程的能力。

我们观察到，思路链提示和自我一致性确实对我们的数据集有效，它们是最近提出的提高 LLM 性能的建议。我们还探索了自我批评，其中指示 LLM（验证者）改进同一 LLM（生成器）的输出。我们发现这种方法对 JEEBENCH 没有帮助。验证者在发现概念错误方面很弱，而且和生成器一样，它本身也容易产生幻觉。探索这种自我改进方法（不）有用的问题类别将会很有趣。我们进一步对 GPT-4 推理能力的局限性进行了批判性分析，并强调了需要大幅改进的主要领域。

详细的错误分析表明，它在检索解决问题所需的相关概念以及执行代数运算和算术时经常遇到困难。无法执行即使是简单的代数运算也凸显了一个重要问题：我们能否构建忠于数理逻辑的 LLM？另一个重要问题是如何评估 GPT-4 与人类相比的表现。JEE 高级考试的祸根是，对答错的问题进行负面评分。这使得考试更具挑战性，因为除了高级的解决问题的技能外，它还需要准确的风险评估并在此基础上计算出一个好的策略。我们的实验表明，当提示评分方案时，GPT-4 的性能实际上会下降。为了缓解这种情况，我们采用了一种简单的方法——对自一致性进行阈值处理。自一致性会为每个问题生成多个答案。一组答案中的相对频率可以被视为每个选项的置信度得分的代理。可以使用验证集调整置信度分数的阈值。我们发现，经过这种方式的提升后，GPT-4 的分数在 2023 年考试中位于人类分数的前 10-20 个百分点。总的来说，我们希望这个基准可以作为一个强大而可靠的测试平台，并促进未来使用 LLM 解决问题的研究。我们的代码和数据集可在 https://github.com/dair-iitd/jeebench 获得。

JEEBENCH 数据集

该数据集由从过去 8 个版本的 JEE-Advanced 中提取的 515 个问题组成从 2016 年到 2023 年。这些问题都来自公开来源。1 考试每年举行 2 场，每场包含 50-60 道题目，平均分布在物理、化学和数学科目中。我们使用在线工具将 PDF 格式试卷中的问题提取到 LATEX 中。我们删除了描述中包含图表的所有问题（约 40%）。执行手动质量检查以修复/消除预处理中可能出现的错误。图 3 显示了最终数据集中的代表性问题。问题按主题分类：物理、化学和数学，以及预期答案的格式：单选项正确的多项选择题 (MCQ)、多选项正确的 MCQ、整数类型和数字类型。在整数类型的问题中，答案是一个无界的非负整数，而对于数字类型，答案是一个小数点后最多 2 位的浮点数。问题按答案类型和主题的分类如表 1 所示。
在这里插入图片描述

数据集中包含的问题属于不同的子主题（例如，数学问题可能属于微积分、代数、组合学等）。整个数据集按子主题的细分情况可在附录 A.1 中找到。

实验设置和结果

我们希望研究以下研究问题：1. LLM 在 JEEBENCH 上的表现如何？2. 为提高 LLM 的推理能力而提出的思路提示和自洽等方法的效果如何？3. 限制这些模型性能的主要错误来源是什么？4. LLM 能否用于在 JEEBENCH 环境中验证自己的生成？这种行为有哪些局限性？5. 在考试环境中，它们的表现如何？如果每个问题答错都可能给出负分？4.1 指标对于单项正确 MCQ 和整数型问题，我们使用准确度作为指标，即，如果模型答案与黄金答案匹配，则得分为 1，否则为 0。对于数字型问题，如果模型答案与黄金答案相差最多 0.01，我们授予 1 分。对于多项正确 MCQ，如果模型答案与所有正确选项匹配，我们授予 1 分。如果模型选择的任何选项不正确，我们授予 0 分。如果模型选择了一些正确选项，而没有错误选项，那么对于输出中的每个正确选项，模型都会获得 0.25 分。例如，如果黄金响应是 ABD 并且输出响应是 BD，则授予 0.5 分。这样做是为了反映 JEE-Advanced 的实际评分方法，从而激励学生不要猜测。提示 LLM 我们在一些开源模型上评估了提出的基准：Falcon7B-Instruct和 Alpaca-LoRA，它使用低秩适应来重现 Alpaca。然后，我们评估专有模型，例如 OpenAI 的 JEE Advanced 也采用负面标记。我们将其纳入第 4.5 节，同时与考试环境中的人类表现进行比较。

GPT 系列模型 text-davinci-003 (GPT3)、gpt-3.5-turbo (GPT-3.5) 和 gpt-4-0314 (GPT-4) ，以及 Google 提供的 text-bison-001 (PaLM-2)。对更大的开源 LLM 的评估留待将来的工作。为了获得模型的响应，每个模型都会提示预期的响应类型与问题描述。确切的系统和用户提示可以在附录 A.3 中找到。确切的答案是从 LLM 生成的响应中手动提取的。有时，LLM 的响应是胡言乱语，有时会回答说没有一个选项是正确的。对于这两种情况，我们都将“无”记录为答案。如果问题的预期响应类型与问题类型不匹配（例如，对于整数类型问题为非整数），那么我们也会将其记录为“无”响应。我们还使用从 2014 年版考试中抽取的示例进行了几次评估。每个问题类型和主题对选择一个示例。所有专有模型均在 2023 年 5 月 17 日至 2023 年 6 月 23 日之间提示。最大响应长度设置为 2048，解码温度设置为 0。表 2 包含按主题和问题类型汇总的各种 LLM 上获得的结果。

总体趋势：我们观察到开源模型的表现与随机模型一样好，并且总体上落后于专有模型。随着 GPT 模型的较新版本，JEEBENCH 上的性能持续提高。GPT-3 表现出接近随机的性能，但 GPT-3.5 和 GPT-4 的表现明显更好。GPT-4 远远优于 GPT-3.5，领先 12.9 分，但整体性能仍接近 30%。显然，化学的性能提升最高，其次是物理，最后是数学。这可能是因为在 JEEBENCH 中，数学问题的推理复杂度最高，而化学问题的推理复杂度最低。这些结果凸显了对开源和专有模型提出的基准测试的难度。此后，我们只关注 GPT-4 的性能，因为它远远优于其他模型。首先，我们评估零样本思维链提示、自洽性和自我细化等方法在 JEEBENCH 上的性能。零样本思维链提示：原始提示与短语“让我们一步一步思考”连接在一起，这是 Kojima 等人 (2022) 提出的。我们观察到这种方法可以显着提高性能，将 vanilla GPT-4 提高了 4.2 分。

少量思维链提示：我们为每个问题类型、主题对在问题前面添加一个少量示例。总体而言，1Shot CoT 的得分为 0.296，而零样本 CoT 的得分为 0.350，vanilla GPT-4 的得分为 0.308。我们的假设是，少量提示对这些问题没有太大帮助，因为使用少量示例很难改进概念错误。此外，许多新颖的推理路径可能未在少量示例中涵盖。因此，我们的数据集可作为少量提示中高级方法的有趣试验台。 Wang 等人 (2023a) 的研究也发现了类似的结果，即零样本 CoT 的得分比少样本 CoT 更高。
在这里插入图片描述
表 2：该表按左侧主题、右侧问题类型汇总了各种开源和专有模型在 JEEBENCH 上获得的分数。总体汇总分数在最后一列。
请注意，表中的 CoT 是指零样本 CoT，GPT-4 + (1-shot) CoT 除外。

函数调用：由于 GPT-4 会犯很多算术错误，我们决定也测试 OpenAI 公开的函数调用 API。由于 JEE 考试只允许使用具有 4 种基本算术运算（+、-、/、*）的基本计算器，因此允许使用 Wolfram 或 python 等插件无法进行公平的比较（例如，直接要求 Wolfram 集成一个函数，而不是从第一原理进行集成）。相反，为了确保公平的竞争环境，我们使用新引入的函数调用 API 来实现标准算术运算符。

请注意，只有 gpt-4-0613 才允许函数调用，而我们的其余结果都是使用 gpt-4-0314 的。我们首先使用零样本 CoT 评估 gpt-4-0613。令人惊讶的是，结果表明 gpt4-0613（新版本）在 CoT 图 4 中较弱：该图显示了 GPT-4 在响应中犯下的不同类型的错误。 (i)（顶部）表现出计算错误，其中执行的平方运算在代数上是错误的。 (ii)（中间）响应显示概念错误，其中模型无法检索解决问题所需的相关概念 (iii)（底部）响应是接地错误，其中概念是正确的，但是在计算 BrF5 中 Br 上的孤对电子数方面的应用是错误的。
在这里插入图片描述
图 4：该图显示了 GPT-4 在响应中所犯的不同类型的错误。 (i) (顶部) 显示计算错误，其中执行的平方运算在代数上是错误的。 (ii) (中间) 响应显示概念错误，其中模型无法检索解决问题所需的相关概念 (iii) (底部) 响应是基础错误，其中概念是正确的，但是在计算 BrF5 中 Br 上孤对电子数方面的应用是错误的。

性能为 0.303，而 gpt-4-0314 为 0.350。使用计算器 API 会使性能从 0.303 进一步降低到 0.274。我们观察到，工具使用对于 GPT-4 来说不是很稳健，它有时会产生幻觉无效的函数参数，有时甚至是无效的函数名称！此外，GPT-4 在小数字运算方面非常准确。计算错误主要发生在符号操作过程中，而不是纯算术运算中，这可能是黑盒计算器不太有用的原因。自洽性 (SC)：我们在非零温度下从 LLM 中抽取多个响应。

对于整数型、数值型和单项正确 MCQ，我们使用多数票（来自所有非“无”的答案）作为建议答案。对于多项正确 MCQ，我们选择一个简化的假设，即所有选项都是独立的。如果某个选项在答案中出现至少 50% 的时间，我们就选择它，否则就不选择。我们使用 τ = 0.5，并将答案数设置为 8。自洽性有助于在 GPT-4+CoT 基线上提高 +3.9 分。在未来，应用诸如自适应一致性之类的扩展来实现更好的成本质量权衡将会很有趣。

系统响应的错误分析为了评估 GPT-4 的弱点，我们对其推理链中的错误进行了手动检查。我们对 GPT-4+CoT 在 100 个问题的随机子集上所犯的错误进行了这项研究。在这个子集上获得的分数是 27.25。我们对每个问题实例的模型响应提出以下问题：1. GPT-4 是否能够检索解决问题所需的概念/事实？无法做到这一点会导致概念错误。2. 如果检索到相关概念，它们是否正确地作为方程/约束建立基础？这些会导致基础错误。3. 代数运算和算术是否正确？这些会导致计算错误。有关每种错误类型的说明，请参见图 4。在一个案例中，我们发现 GPT-4 误解了这个问题。该分析的总体结果如表 3 所示。

在这里插入图片描述
我们的错误分析表明，大多数错误是由于无法提取概念（80 个问题中的 34 个）或计算错误（80 个问题中的 30 个）造成的，而这些概念对于解决问题至关重要。此外，在 20 个问题中，如果答案是正确的（满分 27 分），那么解释也是正确的。也就是说，28% 的时间里，模型会因为错误的原因给出正确的答案。

GPT-4 能发现并纠正错误吗？GPT-4 可以用来给自己的输出打分吗？一个好的评分者应该能够发现解决方案中的错误。最近有多项研究 (Shinn et al, 2023; Madaan et al, 2023) 提出了使用 LLM 来批评自己的输出，并且已经在某些数据集上显示出了改进。一个好的验证者应该能够发现并修复所有错误。即使最终答案是正确的，中间推理步骤也不一定是正确的。我们在 JEEBENCH 上测试了自我批评的想法。生成 CoT 响应后，我们提示另一个 GPT-4 实例，首先描述问题、GPT 的解决方案，然后附加指令：“用给定的解决方案找到问题（如果有）。如果有任何错误，请更正并给出新答案。”我们重新评估了 GPT-4 建议的新答案。结果清楚地表明，这种方法并没有带来改进。事实上，与 GPT-4+CoT 相比，它导致的结果更差，性能从 35% 下降到 33.9%。

为了更深入地了解验证器 GPT-4 建议的修复，进行了手动检查。我们使用之前挑选的 100 个问题的相同子集来对错误类型进行分类。对于每个生成的解决方案和建议的编辑，我们提出以下问题：• 验证器能在解决方案中发现问题吗？• 如果发现问题，验证器能修复问题吗？• 验证器识别的问题实际上是有效问题吗？
在这里插入图片描述
我们的结果见表 4。很明显，与其他作品的观察结果相反，在 JEEBENCH 上，GPT-4 大部分（46 80 = 57.5%）无法在其提出的解决方案中发现错误。即使可以，也无法修复它们。只有在 2在 80 个问题中，GPT-4 能够对错误的解决方案进行有意义的编辑，而它通过建议对解决方案中已经正确的部分进行编辑来降低解决方案的质量，从而过度补偿了错误的解决方案。图 5 提供了验证者所犯错误的示例。这些错误以及其他示例的完整响应可以在附录 A.5 中找到。这个实验提出了一个有趣的问题：自我批评对哪一类问题有帮助（没有帮助）？研究使用学习验证器的方法可能会很有趣。

与人类表现的比较 JEE 考试包含负分，例如，单正确 MCQ 问题正确时获得 +3 分，答错得 -1 分，未回答得 0 分。对于 MultCorrect MCQ，当最终答案中包含所有选项时，得分为 +4。如果任何选项是错误的，则给出 -2 分。如果某些选项是正确的，则每个正确选项加 1 分。考生要最大限度地提高分数所需的技能包括能够评估自己对答案的信心，并能够根据信心水平决定是否回答。前者取决于后者，后者是一个简单的不确定性决策理论计算。
在这里插入图片描述
图 5：[顶部]：GPT-4 识别出错误但无法修复的问题。问题和部分响应位于顶部。底部块包含 GPT-4 建议的编辑。建议的编辑中的操作在数学上是错误的。[底部]：GPT-4 无法识别错误的问题。问题和部分响应位于顶部。底部块包含 GPT-4 建议的编辑。它应该是 log2(2 · 4 4 ) 而不是 log2(2 · 164 )

决定是否回答为了在考试中取得好成绩，重要的是确保模型在不确定其解决方案时不会回答。当提示评分方案时，LLM 能否评估这种风险并做出相应的计划？为了调查这一点，我们向模型提示每种 MCQ 问题类型的确切评分方案以及问题陈述，然后要求生成答案或完全跳过该问题。完整的提示在附录 A.6 中。我们对所有 MCQ 问题的这些提示重新运行所有问题的推理。结果可以在表 5 中看到。
在这里插入图片描述

表 5：GPT-4 使用标记方案提示与不使用 MCQ 问题时获得的分数。

这些分数来自总分 1074 分。结果表明，在这种情况下提示没有帮助，GPT-4 无法有效地决定何时不回答。这与 Valmeekam 等人 (2022) 的观察结果一致，其中表明 LLM 具有较差的规划能力。作为回应，我们开发了一种事后置信度阈值方法，用于自洽反应。对于单正确和多正确 MCQ，我们通过计算每个选项在答案集中的相对频率来计算每个选项的置信度分数。请注意，GPT-4 通常根本无法回答问题，或者得出任何选项都不支持的结论（“无”答案）。在这种情况下，我们不计算此答案的贡献。例如，如果模型在多项选择题 4 次尝试中的答案是“AB”、“无”、“B”、“AC”，则选项的置信度为 A：1 2 ，B：1 2 ，C：1 4 ，D：0。图 6 是 GPT-4 在 JEEBENCH 上的校准曲线。最大校准误差 (MCE) 为 0.136，平均校准误差 (ACE)5 为 0.098。该图表明，该模型在高置信度下略微过度自信，因为在较高置信度水平下准确率较低，图 7：从验证集中对单正确（顶部）和多正确（底部）类型问题在不同阈值下获得的分数，最佳值为 τsingle = 0.125 和 τmultiple = 0.75，但在低置信度和中等置信度下略微不足道。
在这里插入图片描述

具有自洽性的阈值我们的目标是决定是否在最终响应中包含一个选项。我们希望计算一个参数 τ，使得如果该选项的置信度至少为 τ，则该选项将出现在最终响应中。我们分别为单正确和多正确 MCQ 计算单独的 τsingle 和 τmultiple。我们计算 GPT-4 对每个问题的回答的置信度分数，如第 4.5.2 节所述。选择 2016-2021 年的问题作为验证集，2022-2023 年的问题作为测试集。通过简单的超参数搜索，可以找到单正确和多正确 MCQ 的最佳 τsingle 和 τmultiple 阈值。图 7 显示了在 τsingle 和 τmultiple 的可能值范围内验证集上的正分、负分和总分的图。τmultiple 的最佳值为 0.75，τsingle 的最佳值为 0.125。τsingle 小于 0.25 表示多数票是单正确 MCQ 的最佳策略。但是，对于多正确 MCQ 来说情况并非如此，其中阈值 τmultiple = 0.5（如最初所做的）是次优的。我们假设整数和数字问题没有负面标记。它们的最终答案是使用对答案的多数票决定的。表 6 显示了测试集上具有最佳阈值的分数。我们发现，当置信度低于阈值时不回答会使总分增加约 4.3%。
表 6：使用从验证集得出的最佳阈值时获得的测试集分数。
在这里插入图片描述

评估与人类相比的性能最后，我们希望评估 GPT-4 与人类相比的性能。为此，我们使用 2023 年的试卷，因为几乎没有污染的可能性。2023 年的试卷于 2023 年 6 月 4 日发布，包含 65 个问题，其中是文本（其余 37 个包含图像）。考试总分为 360 分。在对 MCQ 进行置信度阈值处理并对整数和数字类型进行定期聚合后，GPT-4 获得的分数为 229 分中的 49 分。假设未包含的问题（因为它们包含图像）的平均难度级别与包含的问题相同，我们将预计的人类表现从 229 标准化为 360 分，总分为 360 分中的 77 分。预测表明，这将使 GPT-4 处于 80-90 百分位范围内。JEE Advanced 2023 的结果表明，前 10% 的分数约为 97/360，前 20% 的分数约为 70/360。图 8提供了 LLM 的表现与申请人的人类表现的比较。

GPT-4 记住了一些问题吗？在互联网规模预训练的时代，很难确定数据集是否已用于训练特定模型。尽管如此，我们还是尝试调查 JEEBENCH 的污染。这是通过 (i) 从公开可用的互联网语料库中搜索 JEEBENCH 中的实例，(ii) 在提示问题陈述的前缀时，提示 LLM 完成问题陈述本身来完成的。这两项调查都表明污染程度很小（约 6%）。我们的污染研究的详细描述可以在附录 A.8 中找到。
在这里插入图片描述

GPT-4+CoT+SC 在 Advanced 2023 问题上的得分为 0.338，与剩余数据集上的总体表现 0.396 相差不远。鉴于 2023 个问题未受污染，我们认为污染程度相当低，它在这个数据集上的表现真正表明了它当前的推理能力。值得注意的是，一些考试（例如 JEE Advanced 2017）更容易，而 GPT-4 在提高总分方面表现更好。总体性能趋势表明高质量数据、指令微调、RLHF 和参数缩放在提高 LLM 的推理能力方面的有效性。对于许多问题，GPT-4 能够给出正确的、类似人类的解决方案的草图，考虑到问题中涉及的推理程度，这令人印象深刻。然而，我们的分析也揭示了需要进步的主要领域。虽然 GPT-4 在某些情况下表现出完美的逻辑和数学推理，但有时它会在琐碎的步骤中犯下严重错误。

结论

概念检索和应用方面的错误提出了一个有趣的研究问题：我们能否增强 LLM，使其生成受到对一组事实的忠实度的限制？这样的系统将展示推理的稳健性，这对于长期任务至关重要。基准测试中的物理问题通常需要理解空间推理。我们发现，虽然 GPT-4 的空间推理远非完美。附录 A.7 提供了一个例子，其中 GPT-4 犯了错误，这可能归因于它无法进行空间推理。随着使用 GPT-4 的多模态版本，评估物理问题的这一方面可能会更容易。最后，理解自己对答案的信心的 LLM 是一个关键的缺失部分，正如我们在考试环境中的实验所强调的那样。我们简单的事后包装器确实在这方面略微提高了性能。

三月七꧁ ꧂

关注

22
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models

大型语言模型 (LLM) 在现有推理基准上的表现在过去几年中得到了显著提升。为此，我们推出了 JEEBENCH，这是一个更具挑战性的基准数据集，用于评估 LLM 的解决问题的能力。我们从竞争激烈的 IIT JEE-Advanced 考试中精选了 515 个具有挑战性的预工程数学、物理和化学问题。在深度领域知识的基础上进行长远推理对于解决此基准中的问题至关重要。我们对各种开源和专有模型的评估表明，即使使用了自洽、自我改进和思维链提示等技术，最高性能也低于 40%。
复制链接

扫一扫