北大:多模态LLM的数学分层评估基准

在这里插入图片描述

📖标题:MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark
🌐来源:arXiv, 2408.07543

摘要

随着多模式大语言模型(MLLMs)的发展,多模式模型在数学问题上的评估已经成为一个有价值的研究领域。多模式视觉-文本数学推理是评估MLLMs的理解和复杂的多步定量推理能力的关键指标。然而,以往的多模式数学基准没有充分整合视觉和文本信息。为了弥补这一差距,我们提出了MathScape,这是一个新的基准,强调了对组合视觉和文本信息的理解和应用。MathScape旨在评估基于照片的数学问题场景,通过分类层次方法评估MLLMs的理论理解和应用能力。我们对11个高级MLLMs进行了多维评估,揭示了我们的基准即使对于最复杂的模型也具有挑战性。通过分析评估结果,我们确定了MLLMs的局限性,为提高模型性能提供了有价值的见解。

🛎️文章简介

🔸研究问题:现有的多模态数学推理基准在问题长度、复杂性和模型答案的开放性方面存在局限性。
🔸主要贡献:论文构建了一个新的多模态数据集MathScape,并设计了一个两步评估流程来评估数学问题的解答。

📝重点思路

🔺相关工作

🔸数学评估基准:纯文本数学基准包括GSM8K、MATH等,多模态数学基准包括MATH-V、CMMU等。
🔸数学MLLM:将视觉知识整合到LLM中已成为一个关键的研究领域,专为数学问题设计的VLLM包括ChatGLM-Math等。

🔺论文方案

🔸数据集构建:①从小初高考试和作业中收集数学题 ②将数学文档转换为图像 ③通过审查和知识分类,构建高质量的数学图像数据集
🔸多维度评估:按照问题类型(选择、填空和证明等)、知识点(代数、几何、概率和统计)和教育阶段(小学、初中、高中)进行划分评估
🔸评估方法:两步评估流程 ①提示LLM将冗长的答案分解为多个子答案,每个子答案都侧重于问题的一个特定方面 ②使用LLM评估每个子答案的正确性
🔸数据摘要:该数据集主要由中文图文问题以及问题标签、属性信息、解题过程和标准参考答案组成。

🔎分析总结

🔸整体表现:闭源模型比开源模型取得了更好的性能,但没有一个模型表现出高稳定性
🔸题目类型:证明题比多项选择和解决方案表现更好,表明证明问题中的结构化格式和清晰的信息使模型更容易处理,而需要复杂、多步骤推理的解决问题则构成了更大的挑战。
🔸题目难度:在初级和中级水平上,这些模型的表现相似,但难度增加到高中水平时,所有模型的准确性都会下降。
🔸答案长度:答案长度和准确性之间不存在直接的正相关关系,但答案长度增加时,准确性往往 会下降。

💡个人观点

论文的创新点是建设了MathScape数据集和评估流程。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值