北大：多模态LLM的数学分层评估基准

最新推荐文章于 2024-10-04 22:36:54 发布

大模型任我行

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量568

点赞数 23

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141783023

版权

大模型-模型评估专栏收录该内容

38 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark
🌐来源：arXiv, 2408.07543

摘要

随着多模式大语言模型（MLLMs）的发展，多模式模型在数学问题上的评估已经成为一个有价值的研究领域。多模式视觉-文本数学推理是评估MLLMs的理解和复杂的多步定量推理能力的关键指标。然而，以往的多模式数学基准没有充分整合视觉和文本信息。为了弥补这一差距，我们提出了MathScape，这是一个新的基准，强调了对组合视觉和文本信息的理解和应用。MathScape旨在评估基于照片的数学问题场景，通过分类层次方法评估MLLMs的理论理解和应用能力。我们对11个高级MLLMs进行了多维评估，揭示了我们的基准即使对于最复杂的模型也具有挑战性。通过分析评估结果，我们确定了MLLMs的局限性，为提高模型性能提供了有价值的见解。

🛎️文章简介

🔸研究问题：现有的多模态数学推理基准在问题长度、复杂性和模型答案的开放性方面存在局限性。
🔸主要贡献：论文构建了一个新的多模态数据集MathScape，并设计了一个两步评估流程来评估数学问题的解答。

📝重点思路

🔺相关工作

🔸数学评估基准：纯文本数学基准包括GSM8K、MATH等，多模态数学基准包括MATH-V、CMMU等。
🔸数学MLLM：将视觉知识整合到LLM中已成为一个关键的研究领域，专为数学问题设计的VLLM包括ChatGLM-Math等。

🔺论文方案

🔸数据集构建：①从小初高考试和作业中收集数学题 ②将数学文档转换为图像 ③通过审查和知识分类，构建高质量的数学图像数据集
🔸多维度评估：按照问题类型（选择、填空和证明等）、知识点（代数、几何、概率和统计）和教育阶段（小学、初中、高中）进行划分评估
🔸评估方法：两步评估流程 ①提示LLM将冗长的答案分解为多个子答案，每个子答案都侧重于问题的一个特定方面 ②使用LLM评估每个子答案的正确性
🔸数据摘要：该数据集主要由中文图文问题以及问题标签、属性信息、解题过程和标准参考答案组成。

🔎分析总结

🔸整体表现：闭源模型比开源模型取得了更好的性能，但没有一个模型表现出高稳定性
🔸题目类型：证明题比多项选择和解决方案表现更好，表明证明问题中的结构化格式和清晰的信息使模型更容易处理，而需要复杂、多步骤推理的解决问题则构成了更大的挑战。
🔸题目难度：在初级和中级水平上，这些模型的表现相似，但难度增加到高中水平时，所有模型的准确性都会下降。
🔸答案长度：答案长度和准确性之间不存在直接的正相关关系，但答案长度增加时，准确性往往会下降。