利物浦：LLM数学评估基准MATHCHECK-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141642888

在这里插入图片描述

📖标题：Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist
🌐来源：arXiv, 2407.08733

摘要

🔸异常的数学推理能力是展示大型语言模型（LLMs）能力的关键特征之一。如何全面定义和评估LLMs的数学能力，甚至在真实场景中反映用户体验，已成为一个重要问题。当前的基准主要集中在问题解决能力上，这存在模型过拟合的风险，并不能准确地代表真正的数学推理能力。
🔸在本文中，我们认为如果模型真正理解了一个问题，它应该能够在各种任务中得到稳健和快速的应用。出于这个动机，我们引入了MATHCHECK，一个设计良好的检查清单，用于测试任务的泛化和推理的稳健性，以及一个高效生成检查清单的自动工具。MATHCHECK包括多个数学推理任务和稳健性测试类型，以促进对数学推理能力和行为测试的全面评估。利用MATHCHECK，我们开发了MATHCHECK-GSM和MATHCHECK-GEO，分别用于评估数学文本推理和多模态推理能力，作为GSM8k、GeoQA、UniGeo和Geometry3K等基准的升级版本。我们采用MATHCHECK-GSM和MATHCHECK-GEO评估了20多个LLMs和11个MLLMs，评估它们的全面数学推理能力。
🔸我们的结果表明，虽然像GPT-4o这样的前沿LLMs在检查清单的各种能力上继续表现出色，但许多其他模型家族表现出明显的下降。进一步的实验表明，与传统的数学基准相比，MATHCHECK更好地反映了真正的数学能力，并更线性地代表了数学智能，从而支持了我们的设计。在我们的MATHCHECK上，我们可以轻松进行详细的行为分析，以深入研究模型。

🛎️文章简介

🔸研究问题：当前基准存在过拟合，如何评估大语言模型（LLM）在数学推理上的真实能力和泛化能力。
🔸主要贡献：论文提出了名为MATHCHECK的评估工具，在多个数学推理任务上测试泛化性和稳健性。

📝重点思路

🔺相关工作

🔸文本数学推理：当前有许多基准如GSM8K等，覆盖从初等数学到高等数学不同难度，但都存在不同程度的性能饱和或数据污染。
🔸视觉数学推理：近期也提出部分基准如MathVista等，评估多模态大模型的视觉推理能力，发现解决问题的性能还很初级。

🔺评估概述

🔸MATHCHECK是一个精心设计的清单，包括通用数学推理任务和多种鲁棒性测试，以清单的方式自动生成大量测试用例。
🔸MATHCHECK-GSM源自GSM8K，测量文本数学推理能力。
🔸MATHCHECK-GEO源自GeoQA等多模态数据集，测量多模态数学推理能力。

🔺评测维度

🔸在清单中，数学任务按行排列以评估任务泛化性，数学问题变体按列排列以评估推理的稳健性。
🔸任务泛化性上分成四种任务，问题解决考察基础推理，可回答判断考察信息充足性，结果判断考察数据准确性，过程判断考察错误步骤识别。
🔸推理稳健性上构建三类变体，原始问题评估基础能力，措辞变化评估问题理解能力，无关干扰评估扰动对抗能力，场景信息评估场景理解能力。

🔎分析总结

🔸GPT-4o表现出色、紧接着是GPT-4，强大的基础模型在多个相关任务上具有良好的推理一致性。
🔸一些模型在特定任务上表现较差，这可能是由于其针对解决任务进行特殊优化导致的。
🔸问题越难、模型性能下降越明显，表明困难问题需要较高的推理技巧和能力。
🔸零样本结合CoT表现最好，少样本提示会降低性能。