📖标题:Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist
🌐来源:arXiv, 2407.08733
摘要
🔸异常的数学推理能力是展示大型语言模型(LLMs)能力的关键特征之一。如何全面定义和评估LLMs的数学能力,甚至在真实场景中反映用户体验,已成为一个重要问题。当前的基准主要集中在问题解决能力上,这存在模型过拟合的风险,并不能准确地代表真正的数学推理能力。
🔸在本文中,我们认为如果模型真正理解了一个问题,它应该能够在各种任务中得到稳健和快速的应用。出于这个动机,我们引入了MATHCHECK,一个设计良好的检查清单,用于测试任务的泛化和推理的稳健性,以及一个高效生成检查清单的自动工具。MATHCHECK包括多个数学推理任务和稳健性测试类型,以促进对数学推理能力和行为测试的全面评估。利用MATHCHECK,我们开发了MATHCHECK-GSM和MATHCHECK-GEO,分别用于评估数学文本推理和多模态推理能力,作为GSM8k、GeoQA、UniGeo和Geometry3K等基准的升级版本。我们采用MATHCHECK-GSM和MATHCHECK-GEO评估了20多个LLMs和11个MLLMs,评估它们的全面数学推理能力。
🔸我们的结果表明,虽然像GPT-4o这样的前沿LLMs在检查清单的各种能力上继续表现出色,但许多其他模型家族表现出明显的下降。进一步的实验表明,与传统的数学基准相比,MATHCHECK更好地反映了真正的数学能力,并更线性地代表了数学智能,从而支持了我们的设计。在我们的MATHCHECK上,我们可以轻松进行详细的行为分析,以深入研究模型。
🛎️文章简介
🔸研究问题:当前基准存在过拟合,如何评估大语言模型(LLM)在数学推理上的真实能力和泛化能力。
🔸主要贡献:论文提出了名为MATHCHECK的评估工具,在多个数学推理任务上测试泛化性和稳健性。
📝重点思路
🔺相关工作
🔸文本数学推理:当前有许多基准如GSM8K等,覆盖从初等数学到高等数学不同难度,但都存在不同程度的性能饱和或数据污染。
🔸视觉数学推理:近期也提出部分基准如MathVista等,评估多模态大模型的视觉推理能力,发现解决问题的性能还很初级。
🔺评估概述
🔸MATHCHECK是一个精心设计的清单,包括通用数学推理任务和多种鲁棒性测试,以清单的方式自动生成大量测试用例。
🔸MATHCHECK-GSM源自GSM8K,测量文本数学推理能力。
🔸MATHCHECK-GEO源自GeoQA等多模态数据集,测量多模态数学推理能力。
🔺评测维度
🔸在清单中,数学任务按行排列以评估任务泛化性,数学问题变体按列排列以评估推理的稳健性。
🔸任务泛化性上分成四种任务,问题解决考察基础推理,可回答判断考察信息充足性,结果判断考察数据准确性,过程判断考察错误步骤识别。
🔸推理稳健性上构建三类变体,原始问题评估基础能力,措辞变化评估问题理解能力,无关干扰评估扰动对抗能力,场景信息评估场景理解能力。
🔎分析总结
🔸GPT-4o表现出色、紧接着是GPT-4,强大的基础模型在多个相关任务上具有良好的推理一致性。
🔸一些模型在特定任务上表现较差,这可能是由于其针对解决任务进行特殊优化导致的。
🔸问题越难、模型性能下降越明显,表明困难问题需要较高的推理技巧和能力。
🔸零样本结合CoT表现最好,少样本提示会降低性能。
💡个人观点
论文提出了一个全面评估语言模型数学推理能力的框架,并通过实验证明了现有模型在不同任务和问题上的性能差异。
附录