paper:https://arxiv.org/pdf/2312.00784
Abstract:
现存的VLLM关注整张图片的理解,与局部区域理解之间存在一个显著的(prominent)gap。近期的方法通过利用文本坐标系(textual coordinate)或者空间的编码(spatial encodings),然而往往推理过程中对用户不友好(写视觉prompt时)。为了解决这一挑战,我们提出了一种新的模型能解码任意的视觉提示词。它使用户可以凭直觉(intuitively)来标记图片,通过天然的提示(红色的框、箭头)来和模型交互。我们简单地将视觉标记物覆盖到RGB图片上,消除了(eliminating)复杂的区域编码。在区域理解数据集(visual7W、PointQA、Visual Commonsense Reasoning benchmark)上SOTA了。然后我们提出了一个ViP-bench。
Introduction:
现在的视觉大模型都只关注整张图片的理解,如果你的提问是任意的,比如一群人中的某一个,这个问题就很棘手。为了解决这个问题,很多任务加了空间指示,但是他们一般形状是固定的(比如矩形框),这在结构化的应用场景中比较高效,但在人机交互中不太好。在本文中,我们提出了一个简单但高效(a simple yet highly