ViP-LLaVA:Making Large Multimodal Models Understand Arbitrary Visual Prompts

paper:https://arxiv.org/pdf/2312.00784

Abstract:

现存的VLLM关注整张图片的理解,与局部区域理解之间存在一个显著的(prominent)gap。近期的方法通过利用文本坐标系(textual coordinate)或者空间的编码(spatial encodings),然而往往推理过程中对用户不友好(写视觉prompt时)。为了解决这一挑战,我们提出了一种新的模型能解码任意的视觉提示词。它使用户可以凭直觉(intuitively)来标记图片,通过天然的提示(红色的框、箭头)来和模型交互。我们简单地将视觉标记物覆盖到RGB图片上,消除了(eliminating)复杂的区域编码。在区域理解数据集(visual7W、PointQA、Visual Commonsense Reasoning benchmark)上SOTA了。然后我们提出了一个ViP-bench。

Introduction:

现在的视觉大模型都只关注整张图片的理解,如果你的提问是任意的,比如一群人中的某一个,这个问题就很棘手。为了解决这个问题,很多任务加了空间指示,但是他们一般形状是固定的(比如矩形框),这在结构化的应用场景中比较高效,但在人机交互中不太好。在本文中,我们提出了一个简单但高效(a simple yet highly effective)的方案:一个大模型可以处理任意的视觉提示词。

根据我们的观察和以往的工作经验,CLIP可以理解视觉标记,于是我们直接把视觉标记物介入到原始的图片空间中(没有做任何额外的操作)。尽管我们的操作看似简单(deceptively simple),它带来了意想不到的好处(it yields an unexpected benefit):在区域理解任务上SOTA了。

Approach:

1. 模型结构

按照随即透明度把标记和原图叠一块,然后扔进冻住的CLIP图片编码器,从里面不同的层拿出来features拼一起,同时把带有标记的文本描述也编码,和之前的一起扔进LLM,ft。

2. FT数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值