摘要
当我们环顾四周并执行复杂任务时,我们如何看待和选择性地处理我们所看到的是至关重要的。然而,这种视觉搜索机制的缺乏,在目前的多模态LLM(MLLM)阻碍了他们的能力,专注于重要的视觉细节,特别是在处理高分辨率和视觉拥挤的图像。为了解决这个问题,我们引入了V∗的,一个LLM引导的视觉搜索机制,采用世界知识的LLM高效的视觉查询。当与MLLM相结合时,这种机制增强了协作推理,上下文理解和特定视觉元素的精确定位。这种集成产生了一个新的MLLM元体系结构,命名为Show、sEArch和TelL(SEAL)。我们进一步创建了V∗ Bench,这是一个专门用于评估MLLM处理高分辨率图像和专注于视觉细节的能力的基准。我们的研究强调了将视觉搜索功能纳入多模态系统的必要性。代码在这里可用。
图1.视觉搜索机制使人类能够在众多刺激中识别目标,简化了对解决问题和推理至关重要的信息的组织。在这项工作中,我们将在MLLM的背景下探索这一核心机制,解决它的缺乏,这目前阻碍了精确的视觉基础,特别是对于高分辨率图像。在这个例子中,VQA LLM无法立即回答问题,因此激活了VQLM,这是一个LLM引导的视觉搜索过程,使用常识和上下文线索来搜索所需的细节。在整个信息搜索过程中,它建立了一个视觉工作记忆(VWM),标记了与目标相关的整体背景和感兴趣的领域,然后将其重新反馈到VQA LLM,使其能够准确回答问题。
1.介绍
人类智能的标志之一是能够处理和整合多感官信息来执行复杂的任务。我们认知推理过程中涉及视觉信息的一个突出方面是进行视觉搜索的能力-在复杂的现实世界场景中有效识别和定位关键对象的过程。这种机制在与环境的交互中起着基础性的作用,并且无处不在,从在杂乱的桌子上找到钥匙到在人群中寻找朋友。此外,对于需要多个推理步骤的复杂任务来说,它也是必不可少的步骤。视觉搜索的复杂性在认知科学和视觉科学中已经研究了很长时间[37,46,48,50-52]。
虽然视觉搜索对人类来说似乎很直观,但它实际上是一个由一系列复杂行为支撑的复杂过程。为了有效地完成这项任务,自上而下的特征引导和上下文场景引导是两个基本因素,指导人类的视觉搜索过程[51]。自上而下的特征引导基于目标对象的规范或关于其一般类别的知识将人类的注意力引导到具有特定特征或属性(例如,颜色、形状和方向)的项目。上下文场景引导基于这样的事实,即对象通常在现实世界场景中的结构化场景中被良好地组织。因此,人们可以使用场景的语义、对象共现和其他基于常识知识的物理约束来关注特定区域,从而加速搜索过程。
作为实现人工通用智能的重要一步,多模态LLM(MLLM)[1,8,23,28,63]试图模仿人类整合多模态信息和执行通用任务的能力。利用大型语言模型的强大推理能力,在这一领域已经取得了重大进展。然而,当前MLLM的一个关键限制是它们依赖于预先训练的(通常是冻结的)视觉编码器,例如CLIP [39]图像编码器。这种依赖性形成了视觉信息处理的主要瓶颈。视觉编码器通常在低分辨率的图像上训练,例如224×224或336×336像素。在部署过程中,图像的大小通常也会调整为较低的分辨率。因此,编码器可能会忽略高分辨率图像中的重要细节。此外,目前的MLLM很难识别它们处理的图像中缺少或不清楚哪些重要的视觉细节,也不能主动寻找或请求这些缺失的信息。
受人类能力的启发,我们提出了SEAL(Show,SEArch和TelL),一个通用的元架构,将LLM引导的视觉搜索机制集成到MLLM中,以解决上述视觉限制。SEAL框架由VQA LLM和视觉搜索模型组成。与典型的MLLM模型不同,由于视觉编码器提供的信息不足,MLLM模型可能会拒绝回答或做出不知情的猜测(即幻觉),SEAL中的VQA LLM可以明确指出缺失的视觉细节,从而创建聚焦的目标对象。然后,使用丰富的世界知识和语言模型的常识,视觉搜索组件定位这些识别的元素,将它们添加到视觉工作记忆(VWM)中。VWM中的这些额外的视觉数据使VQA语言模型能够提供更准确和更明智的响应。SEAL的适应性允许它与各种MLLM基础模型一起工作;在我们的例子中,**我们使用LLaVA [28](Visual instruction tuning)作为视觉搜索模型中的VQA LLM和MLLM。**有了这种新的视觉搜索能力,MLLM更好地处理需要在高分辨率图像中进行准确视觉基础的情况,正如我们的比较所强调的那样(图2)。
图2.GPT-4V失败的示例(访问日期:2023年10月31日),而具有V*视觉搜索机制的SEAL成功。尽管GPT-4V有一个比我们的(Vicuna-7B)更强大的LLM(GPT-4),它仍然偶尔在需要大量视觉处理的场景中挣扎。这些情况需要在高分辨率图像中进行精确的视觉基础,这是视觉搜索机制必不可少的任务。最好在屏幕上观看与缩放。图片来源见附录。
由于人类的视觉搜索过程是由自上而下的功能指导和上下文场景指导,我们设计了一个明智的视觉搜索算法称为V*的视觉搜索模型遵循类似的原则。对于人类来说,这种指导主要来自他们对物理世界的知识和经验。因此,我们的视觉搜索模型是建立在另一个MLLM,其中包含了大量的常识知识的世界,并可以有效地理由在场景中的目标的可能位置的基础上,这些知识。
现有的MLLM基准[10,21,30]主要侧重于提供跨各种任务类别的综合评估,并没有充分挑战或暴露上述当前范式的具体局限性。为了弥合这一差距,并评估我们提出的框架,我们引入了VQA Bench,这是一个新的专用VQA基准,专注于高分辨率图像的详细视觉基础。V Bench是一个以视觉为中心的基准测试*,要求多模态模型准确地基于特定的视觉信息,这些信息很容易被缺乏视