CMU:多学科多模态LLM理解基准

在这里插入图片描述

📖标题:MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
🌐来源:arXiv, 2409.02813

摘要

🔸本文介绍了MMMU Pro,这是大规模多学科多模态理解和推理(MMMU)基准的稳健版本。MMMU Pro通过基于MMMU的三步过程严格评估多模态模型的真实理解和推理能力:(1)过滤出仅文本模型可以回答的问题,(2)增加候选选项,以及(3)引入仅视觉输入设置,将问题嵌入图像中。这种设置挑战了人工智能真正同时“看”和“读”,测试了无缝集成视觉和文本信息的基本人类认知技能。
🔸结果显示,MMMU Pro的模型性能远低于MMMU,各模型的性能范围为16.8%至26.9%。我们探索了OCR提示和思维链(CoT)推理的影响,发现OCR提示的效果很小,而CoT通常可以提高性能。MMMU Pro提供了一个更严格的评估工具,密切模仿现实世界的场景,为未来多模态人工智能的研究提供了有价值的方向。

🛎️文章简介

🔸研究问题:当前模型在多模态评估中,是否真正反映了对不同主题的深刻、多方面的理解,还是仅仅依赖于表面线索和统计模式?
🔸主要贡献:论文提出了一个更鲁棒的多学科多模态理解基准MMMU-Pro,以更准确和严格地评估模型的多模态理解和推理能力。

📝重点思路

🔺相关工作

🔸MLLM训练:包括创新的训练方法和指令跟随能力的提升,如Gemini和Claude-3.5等模型在视觉语言任务中的表现。
🔸MLLM评测:早期基准测试的局限性,如VQA、OK-VQA和MSCOCO已不足以评估高级多模态模型的全部能力,新的基准测试如LAMM、LVLM-eHub等,在评估专家级领域知识和复杂推理方面仍显不足。

🔺论文方案

🔸概述:MMMU-Pro是MMMU基准测试的更强大且更具挑战性的版本,包含三步构建过程
🔸步骤1-问题筛选:过滤掉那些可以仅通过文本语言模型回答的问题。
🔸步骤2-增加难度:将候选选项从4个增加到10个,以减少模型通过猜测正确答案的可能性,迫使模型更深入地处理多模态内容。
🔸步骤3-引入视觉:引入视觉输入设置,模型仅通过图像中的信息回答问题,不提供显式的文本输入,以测试模型在视觉和文本信息整合方面的能力。

🔎分析总结

🔸增加候选选项的影响:将候选选项从4个增加到10个后,所有模型的性能显著下降,表明增加选项数量有效减少了模型猜测正确答案的可能性。
🔸视觉输入设置的影响: 在视觉输入设置下,模型的性能进一步下降,表明视觉输入设置成功测试了模型的视觉和文本信息整合能力。
🔸OCR在视觉设置中的作用: 在视觉输入设置中,包含OCR提示并未显著提高模型性能,表明强模型已经能够从图像中提取和理解文本信息,无需显式OCR提示。
🔸CoT提示的效果: 在标准和视觉输入设置中,引入CoT提示通常提高了模型性能,但改进程度因模型而异,可能与指令跟随能力有关。
🔸定性分析: 模型在标准设置中正确回答但在视觉输入设置中失败的情况,揭示了视觉和文本信息整合的复杂性。

💡个人观点

论文核心是考察运用视觉与文本信息的能力,模拟人类处理文本和图像交织场景的方式。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值