📖标题:MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
🌐来源:arXiv, 2409.02813
摘要
🔸本文介绍了MMMU Pro,这是大规模多学科多模态理解和推理(MMMU)基准的稳健版本。MMMU Pro通过基于MMMU的三步过程严格评估多模态模型的真实理解和推理能力:(1)过滤出仅文本模型可以回答的问题,(2)增加候选选项,以及(3)引入仅视觉输入设置,将问题嵌入图像中。这种设置挑战了人工智能真正同时“看”和“读”,测试了无缝集成视觉和文本信息的基本人类认知技能。
🔸结果显示,MMMU Pro的模型性能远低于MMMU,各模型的性能范围为16.8%至26.9%。我们探索了OCR提示和思维链(CoT)推理的影响,发现OCR提示的效果很小,而CoT通常可以提高性能。MMMU Pro提供了一个更严格的评估工具,密切模仿现实世界的场景,为未来多模态人工智能的研究提供了有价值的方向。
🛎️文章简介
🔸研究问题:当前模型在多模态评估中,是否真正反映了对不同主题的深刻、多方面的理解,还是仅仅依赖于表面线索和统计模式?
🔸主要贡献:论文提出了一个更鲁棒的多学科多模态理解基准MMMU-Pro,以更准确和严格地评估模型的多模态理解和推理能力。
📝重点思路
🔺相关工作
🔸MLLM训练:包括创新的训练方法和指令跟随能力的提升,如Gemini和Claude-3.5等模型在视觉语言任务中的表现。
🔸MLLM评测:早期基准测试的局限性,如VQA、OK-VQA和MSCOCO已不足以评估高级多模态模型的全部能力,新的基准测试如LAMM、LVLM-eHub等,在评估专家级领域知识和复杂推理方面仍显不足。
🔺论文方案
🔸概述:MMMU-Pro是MMMU基准测试的更强大且更具挑战性的版本,包含三步构建过程
🔸步骤1-问题筛选:过滤掉那些可以仅通过文本语言模型回答的问题。
🔸步骤2-增加难度:将候选选项从4个增加到10个,以减少模型通过猜测正确答案的可能性,迫使模型更深入地处理多模态内容。
🔸步骤3-引入视觉:引入视觉输入设置,模型仅通过图像中的信息回答问题,不提供显式的文本输入,以测试模型在视觉和文本信息整合方面的能力。
🔎分析总结
🔸增加候选选项的影响:将候选选项从4个增加到10个后,所有模型的性能显著下降,表明增加选项数量有效减少了模型猜测正确答案的可能性。
🔸视觉输入设置的影响: 在视觉输入设置下,模型的性能进一步下降,表明视觉输入设置成功测试了模型的视觉和文本信息整合能力。
🔸OCR在视觉设置中的作用: 在视觉输入设置中,包含OCR提示并未显著提高模型性能,表明强模型已经能够从图像中提取和理解文本信息,无需显式OCR提示。
🔸CoT提示的效果: 在标准和视觉输入设置中,引入CoT提示通常提高了模型性能,但改进程度因模型而异,可能与指令跟随能力有关。
🔸定性分析: 模型在标准设置中正确回答但在视觉输入设置中失败的情况,揭示了视觉和文本信息整合的复杂性。
💡个人观点
论文核心是考察运用视觉与文本信息的能力,模拟人类处理文本和图像交织场景的方式。
附录