📖标题:Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
🌐来源:arXiv, 2504.15280
🌟摘要
🔸多视图理解,即跨不同视点协调视觉信息以实现有效导航、操纵和3D场景理解的能力,是多模态大语言模型(MLLM)用作体现代理的一个基本挑战。虽然最近的MLLM在高级推理和规划方面取得了令人印象深刻的进步,但在面对多视图几何一致性和交叉视图对应时,它们经常出现不足。
🔸为了全面评估MLLM在多视图场景推理中的挑战,我们提出了All-Angles Bench,这是一个基准,在90个不同的现实世界场景中,有2100多对人类仔细注释的多视图问答对。我们的六项任务(计数、属性识别、相对距离、相对方向、对象操纵和相机姿态估计)专门测试模型的几何对应性以及在视图之间一致对齐信息的能力。
🔸我们对27种代表性MLLM进行了广泛的实验,包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o,并与人类评估人员进行了比较,结果显示存在巨大的性能差距,表明目前的MLLM仍远未达到人类水平的熟练程度。通过深入分析,我们发现MLLM在两个方面表现尤其不佳:(1)部分遮挡视图的交叉视图对应和(2)建立粗略的相机姿态。这些发现强调了嵌入更强多视图感知的特定领域改进或模块的必要性。我们相信,我们的AllAngles Bench提供了宝贵的见解,并有助于弥合MLLM和人类水平的多视图理解之间的差距。该项目和基准可在以下网址公开获取https://danielchyeh.github.io/All-Angles-Bench/。
🛎️文章简介
🔸研究问题:多模态大型语言模型(MLLM)在多视角理解能力方面存在不足,以及缺乏有效的评估基准。
🔸主要贡献:论文提出了All-Angles Bench基准,包含2100多个经人工注释的多视角问题-答案对,全面评估MLLM在多视角场景中的表现。
📝重点思路
🔸设计了一个包含90个多视角场景的数据集,涵盖各种活动和环境,以确保视觉上下文的多样性。
🔸通过六个任务类别(计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计)来评估MLLM的几何理解能力。
🔸使用MLLM生成初步问题,并由人工注释者对问题和答案进行严格的审核和修订,以确保质量。
🔸设计成对问题,通过稍微改变措辞或视角顺序来评估模型的跨视角一致性。
🔸对27个代表性的MLLM进行基准测试,并与人类评估者的表现进行比较。
🔎分析总结
🔸研究发现,当前的MLLMs在多视角理解上存在显著的性能差距,尤其是在物体识别和相机姿态估计等任务上。
🔸MLLM在跨视角识别相同物体时表现不佳,且在处理视角转换和几何关系时常常出现误解。
🔸尽管链式思维提示(CoT)在其他推理任务中有效,但在多视角推理中未能一致地改善模型性能,表明需要更根本的领域特定改进。
🔸研究还揭示了模型在处理相关性和方向感知任务时的脆弱性。
💡个人观点
论文的核心在于提出了一个全面的多视角理解评估基准,填补了当前MLLM在多视角几何理解能力评估上的空白,同时通过深入分析揭示了模型在实际应用中的具体不足。
🧩附录