免责声明: 内容不一定准确,且本人方向为分割,论文部分内容可能未被提及。
0、前言
Name:《Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks》
arxiv:https://arxiv.org/pdf/2401.14159
Journals/Conferences:arxiv
code:Grounded SAM
分类:开放世界统一模型
1、相关概念
在开放世界场景中,视觉感知与理解任务对于自动驾驶、机器人导航和智能安防监控等应用的进步至关重要。这些应用需要具备强大且多功能的视觉感知模型,能够解读并与开放环境交互。目前,应对开放世界视觉感知挑战的主要方法有三种:
- 统一模型方法:通过在多个数据集上训练模型,如 UNINEXT和 OFA,支持多种视觉任务。这一方法还包括在不同的视觉问答数据集上训练大型语言模型,从而统一任务,如 LLaVA、InstructBLIP、Qwen-VL以及其