ViP-LLaVA：Making Large Multimodal Models Understand Arbitrary Visual Prompts

深海的银

已于 2024-08-25 22:10:20 修改

阅读量539

点赞数 4

分类专栏： CVPR 2024 文章标签：深度学习计算机视觉人工智能

于 2024-08-25 16:37:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44543298/article/details/141529821

版权

paper：https://arxiv.org/pdf/2312.00784

Abstract：

现存的VLLM关注整张图片的理解，与局部区域理解之间存在一个显著的（prominent）gap。近期的方法通过利用文本坐标系（textual coordinate）或者空间的编码（spatial encodings），然而往往推理过程中对用户不友好（写视觉prompt时）。为了解决这一挑战，我们提出了一种新的模型能解码任意的视觉提示词。它使用户可以凭直觉（intuitively）来标记图片，通过天然的提示（红色的框、箭头）来和模型交互。我们简单地将视觉标记物覆盖到RGB图片上，消除了（eliminating）复杂的区域编码。在区域理解数据集（visual7W、PointQA、Visual Commonsense Reasoning benchmark）上SOTA了。然后我们提出了一个ViP-bench。

Introduction：

现在的视觉大模型都只关注整张图片的理解，如果你的提问是任意的，比如一群人中的某一个，这个问题就很棘手。为了解决这个问题，很多任务加了空间指示，但是他们一般形状是固定的（比如矩形框），这在结构化的应用场景中比较高效，但在人机交互中不太好。在本文中，我们提出了一个简单但高效（a simple yet highly

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。