CMU：多学科多模态LLM理解基准

最新推荐文章于 2024-10-13 21:11:07 发布

大模型任我行

最新推荐文章于 2024-10-13 21:11:07 发布

阅读量1k

点赞数 19

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142126115

版权

大模型-模型评估专栏收录该内容

39 篇文章 1 订阅

订阅专栏

在这里插入图片描述

📖标题：MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
🌐来源：arXiv, 2409.02813

摘要

🔸本文介绍了MMMU Pro，这是大规模多学科多模态理解和推理（MMMU）基准的稳健版本。MMMU Pro通过基于MMMU的三步过程严格评估多模态模型的真实理解和推理能力：（1）过滤出仅文本模型可以回答的问题，（2）增加候选选项，以及（3）引入仅视觉输入设置，将问题嵌入图像中。这种设置挑战了人工智能真正同时“看”和“读”，测试了无缝集成视觉和文本信息的基本人类认知技能。
🔸结果显示，MMMU Pro的模型性能远低于MMMU，各模型的性能范围为16.8%至26.9%。我们探索了OCR提示和思维链（CoT）推理的影响，发现OCR提示的效果很小，而CoT通常可以提高性能。MMMU Pro提供了一个更严格的评估工具，密切模仿现实世界的场景，为未来多模态人工智能的研究提供了有价值的方向。

🛎️文章简介

🔸研究问题：当前模型在多模态评估中，是否真正反映了对不同主题的深刻、多方面的理解，还是仅仅依赖于表面线索和统计模式？
🔸主要贡献：论文提出了一个更鲁棒的多学科多模态理解基准MMMU-Pro，以更准确和严格地评估模型的多模态理解和推理能力。

📝重点思路

🔺相关工作

🔸MLLM训练：包括创新的训练方法和指令跟随能力的提升，如Gemini和Claude-3.5等模型在视觉语言任务中的表现。
🔸MLLM评测：早期基准测试的局限性，如VQA、OK-VQA和MSCOCO已不足以评估高级多模态模型的全部能力，新的基准测试如LAMM、LVLM-eHub等，在评估专家级领域知识和复杂推理方面仍显不足。

🔺论文方案

🔸概述：MMMU-Pro是MMMU基准测试的更强大且更具挑战性的版本，包含三步构建过程
🔸步骤1-问题筛选：过滤掉那些可以仅通过文本语言模型回答的问题。
🔸步骤2-增加难度：将候选选项从4个增加到10个，以减少模型通过猜测正确答案的可能性，迫使模型更深入地处理多模态内容。
🔸步骤3-引入视觉：引入视觉输入设置，模型仅通过图像中的信息回答问题，不提供显式的文本输入，以测试模型在视觉和文本信息整合方面的能力。

🔎分析总结

🔸增加候选选项的影响：将候选选项从4个增加到10个后，所有模型的性能显著下降，表明增加选项数量有效减少了模型猜测正确答案的可能性。
🔸视觉输入设置的影响：在视觉输入设置下，模型的性能进一步下降，表明视觉输入设置成功测试了模型的视觉和文本信息整合能力。
🔸OCR在视觉设置中的作用：在视觉输入设置中，包含OCR提示并未显著提高模型性能，表明强模型已经能够从图像中提取和理解文本信息，无需显式OCR提示。
🔸CoT提示的效果：在标准和视觉输入设置中，引入CoT提示通常提高了模型性能，但改进程度因模型而异，可能与指令跟随能力有关。
🔸定性分析：模型在标准设置中正确回答但在视觉输入设置中失败的情况，揭示了视觉和文本信息整合的复杂性。