从视觉任务（识别/定位/分割/追踪..）出发，调研各种模态提示的视觉大模型CV-VLM综述论文详细阅读：Foundational Models Defining a New Era in Vision

小小帅AIGC

已于 2024-03-06 14:13:11 修改

阅读量1.7k

点赞数 12

分类专栏： VLM多模态论文阅读/源码解析文章标签： VLM 视觉语言模型语言模型计算机视觉图像处理深度学习视觉语言大模型

于 2024-03-06 14:08:57 首次发布

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136372430

版权

VLM多模态论文阅读/源码解析专栏收录该内容

18 篇文章

订阅专栏

本篇主要讲解了在视觉领域中视觉语言模型的发展历程，每种VLM基础模型提出的背景，设计方案，应用领域等，调查了关于图像识别，图像定位，图像分割，字幕生成，视频追踪等方向相关的模型。

Foundational Models Defining a New Era in Vision: A Survey and Outlook

定义视觉新时代的基本模型：调查与展望

paper: 2307.13721.pdf (arxiv.org)

github：awaisrauf/Awesome-CV-Foundational-Models (github.com)

论文中讲解的模型汇总，以大类为主：

对比学习	生成学习	混合对比和生成学习	对话式视觉语言模型	视觉提示模型	基于异构模式的模型	基础性具身代理
CLIP	Frozen	UNITER	GPT4	CLIPSeg	CLIP2Video	Palm-E
ALIGN	Flamingo	Pixel2Seqv2	miniGPT4	SegGPT	AudioCLIP	ViMA
Florence	MetaLM	VL-x	Video-ChatGPT	SAM	Image Bind	MineDojo
WenLan	KOSMOS-1	CoCa	XrayGPT	SEEM	MACAWLLM	VOYAGER
FILIP	KOSMOS-2	FLAVA	LLaVA	MedSAM	COSA	LM-Nav
FLIP	SimVLM	BridgeTower	LLaMA-Adapter	AutoSAM	Valley
MaskCLIP	MaskVLM	PaLI	LLaMA-Adapter V2	3DSAM-adapter
EVA-CLIP	mPLUG-OWL	X-FM		Medical SAM Adapter
CLIPA		BLIP		DeSAM
RegionCLIP		BLIP-2		MedLAM
CRIS		InstructBLIP		SAMM
GLIP		VPGTrans		SAM-PT
Grounding-DINO		TaCA		SAM-DA
OWL-ViT		ViLD		Caption AnyThing
OpenSeg		FIBER		RsPrompter
GroupViT		UniDetector		FasterSAM
		XDecoder		MobileSAM
		Glipv2		RefSAM
		ViLD		VisionLLM
		FIBER		Painter
		UniDetector

每个模型提出的出发点/任务方向：

模型	应用
CLIP	VLP，VLM鼻祖
ALIGN	打破数据集规模的限制，在10亿数据集训练
Florence	适用于空间-时间-模态空间
SLIP	多数VLM侧重于语言监督，而忽略了视觉部分，因此其基于图像的自我监督
WenLan	面对图文相关性较弱情况
FILIP	细粒度图文特征交互
FLIP	提高CLIP效率的掩码式对比训练
MaskCLIP	为了充分利于图像信息
EVA-CLIP	在Mask视觉输入的同时解决不稳定性和优化效率问题
CLIPA	高效训练配方（小规模且快速）
MaskCLIP	用于视觉定位任务
RegionCLIP	用于物体检测任务
RegionCLIP	用于物体检测任务
CRIS	用于图像分割任务
GLIP	用于Phrase提示已实现视觉定位任务
Grounding-DINO	开放集语言引导的对象检测器
OWL-ViT	开放词汇对象检测
GroupViT	基于视觉分组机制的语义分割
Frozen	LLMs基于图像文本提示生成字幕
Flamingo	VLM仅使用少量示例就能适应新任务
MaskVLM	联合掩码重构语言建模VLP
mPLUG-OWL	基于语言建模目标训练的模块化VLM
UNITER	混合损失的VLM预训练
Pixel2Seqv2	物体检测、实例分割、关键点预测和字幕任务统一模型
VL-x	视觉任务统一框架（转换为文本生成任务）
BLIP	具有理解和生成能力的VLP
InstructBLIP	视觉语言指令调整框架
FIBER	图像理解和定位任务
UniDetector	用于物体检测的方法
CLIPSeg/SegGPT/SAM	用于图像分割任务
TAM/SAM-Track/SAM-PT/SAM-DA	用于视频分割跟踪任务

…
…

文章目录

Abstract
1.INTRODUCTION
2.PRELIMINARIES
3.TEXTUALLY PROMPTED MODELS（文本提示模型）
4 CONVERSATIONAL VISION-LANGUAGE MODELS(对话式视觉语言模型)
5 VISUALLY PROMPTED MODELS（视觉提示模型）
6 HETEROGENEOUS MODALITIES BASED MODELSI（基于异构模式的模型）
7 EMBODIED FOUNDATIONAL AGENTS（基础性具身代理）
8 OPEN CHALLENGES & RESEARCH DIRECTIONS(公开挑战与研究方向)
9 CONCLUSION

Abstract

视觉系统可以观察和推理视觉场景的构成性质，是理解我们这个世界的基础。现实世界环境中物体及其位置、模糊性和变化之间的复杂关系可以用人类语言进行更好的描述，而人类语言自然受语法规则以及音频和深度等其他模态的制约。为弥合这些模式之间的差距而学习的模型与大规模的训练数据相结合，有助于在测试时进行上下文推理、概括和提示。这些模型被称为基础模型。这些模型的输出可以通过人类提供的提示进行修改，而无需重新训练，例如，通过提供一个边界框来分割特定物体，通过对图像或视频场景提出问题来进行交互式对话，或者通过语言指令来操纵机器人的行为。在本调查报告中：

全面回顾了此类新兴基础模型，包括结合不同模式（视觉、文本、音频等）、训练目标（对比、生成）、预训练数据集、微调机制和常见提示模式（文本、视觉和异构）的典型架构设计。

我们讨论了计算机视觉基础模型面临的挑战和研究方向，包括评估和基准测试的困难、对现实世界理解的差距、对上下文理解的局限性、偏差、易受对抗性攻击以及可解释性问题。我们回顾了这一领域的最新发展，系统而全面地涵盖了基础模型的广泛应用。本作品中研究的基础模型的综合列表可在 https://github.com/awaisrauf/Awesome-CV-Foundational-Models 上查阅。

1.INTRODUCTION

近年来，基础模型的开发取得了巨大成功，这些模型在大规模广泛数据的基础上进行训练，一旦训练完成，便可作为基础模型运行，并可根据与原始训练模型相关的广泛下游任务进行调整（如微调）。

基础模型（ foundation models->预训练模型）为何突然激增的发展：

虽然基础模型的基本要素，如深度神经网络和自监督学习，已经存在多年，但最近的激增，特别是通过大型语言模型（LLM）实现的激增，主要归功于数据和模型规模的大规模扩展。例如，GPT-3等最新的十亿参数模型已被有效地用于零/少量学习，在不需要大规模特定任务数据或模型参数更新的情况下取得了令人印象深刻的性能。同样，最近的 5400 亿参数 Pathways 语言模型（PaLM）也在从语言理解和生成到推理和代码相关任务的众多挑战性问题上展示了最先进的能力。

通过基础模型的激增引出基础的视觉语言模型（VL）：

与自然语言处理中的 LLM 同时，最近也有文献探讨了用于不同感知任务的大型基础模型。例如，预先训练的视觉语言模型（VL），如 CLIP，在不同的下游视觉任务（包括图像分类和物体检测）中表现出了良好的Zero-shot性能。这些视觉语言基础模型通常使用从网络上收集的数百万图像-文本对进行训练，并提供具有泛化和转移能力的表征。这些预先训练好的 VL 基础模型可以通过给定任务的自然语言描述和提示来适应下游任务。例如，开创性的 CLIP 模型利用精心设计的提示来完成不同的下游任务，包括Zero-shot分类，其中文本编码器通过类名或其他自由形式的文本动态构建分类器。在这里，文本提示是手工制作的模板，例如 "一张{标签}的照片"，有助于指定与视觉图像内容相对应的文本。最近，许多研究都在探索通过在特定指令集上对 VL 模型进行微调，从而为 VL 模型添加对话功能。

除了VL基础模型外，引出存在prompt提示的大预训练模型：

除了大型 VL 基础模型外，还有一些研究致力于开发可视输入提示的大型基础模型。例如，最近推出的 SAM在给定图像和视觉提示（如方框、点或Mask）的情况下，执行了一种与类别无关的分割。这种模型是按照模型在环（半自动）数据集注释设置，在数十亿个对象掩码上训练出来的。此外，这种基于视觉提示的通用分割模型还可适用于特定的下游任务，如医学图像分割、视频对象分割、机器人学和遥感。除了基于文本和视觉提示的基础模型外，研究工作还探索开发模型，努力将多种配对模式（如图像-文本、视频-音频或图像深度）统一起来，以学习有助于不同下游任务的有意义表征。

介绍本文重点，CV领域的预训练模型（包括各种视觉基础模型，多模态提示的视觉大模型）：

在这项工作中，我们对计算机视觉中的基础模型进行了系统回顾。

首先，我们简要介绍了基础模型的背景和基本原理，包括常见的架构类型、自监督学习目标、大规模训练和提示工程（第 2 节）。
然后，我们将现有工作分为文本提示（第3-4节）、视觉提示（第5节）、基于异构模态（第6节）和嵌入式基础模型（第7节）。在文本提示基础模型中，我们进一步将其区分为对比型、生成型、混合型（对比型和生成型）以及会话式 VL 模型。
最后，我们在分析的基础上讨论了面临的挑战和研究方向（第 8 节）。

接下来，我们回顾了与我们的研究相关的其他调查，并讨论了其中的差异和独特之处。

其他先前综述论文的论述重点：

相关评论与差异（Related Reviews and Differences）。在文献中，近期有少数作品回顾了自然语言处理中的大型语言模型（LLM）。

Zhao 等人的作品回顾了 LLM 的最新进展，区分了 LLM 的不同方面，如预训练、适应性调整、LLM 利用和评估。这项调查还总结了开发 LLM 的可用资源，并讨论了未来的潜在方向。文献讨论了 LLM 在执行基准评估时的推理能力。文献为使用 LLMs 的从业人员提供了实用指南，从下游任务的角度对 LLMs 的使用进行了详细讨论并提出了独到见解。这项工作还分析了预训练、训练和测试数据对 LLM 的影响。此外，这项工作还讨论了 LLM 在实际应用场景中的不同局限性。

在视觉语言模型方面：

[180] 的研究对视觉语言预训练模型的任务定义和一般架构进行了初步审查。同样，文献[73]讨论了在预训练步骤之前将图像和文本编码为嵌入式的不同技术，并回顾了不同的预训练架构。文献[299]回顾了多模态数据的transformers技术，从几何拓扑的角度考察了基本transformers、视觉transformers和多模态transformers。在多模态学习方面，最近的综述[364]侧重于自我监督多模态学习技术，以有效利用原始多模态数据的监督。该综述根据目标函数、数据排列和架构对现有方法进行了区分。文献[132, 84]总结了不同的视觉语言预训练网络架构、目标和下游任务，并对视觉语言预训练框架进行了分类。最近，[331] 的研究回顾了基于视觉提示的基础分割模型、任何分割，并讨论了其潜在的下游任务。

本综述与其他综述的区别：

本研究与上述研究的主要区别如下。与以往主要关注基于文本提示的视觉语言模型的调查不同，我们的工作主要关注三种不同类别的基础模型：文本提示模型（对比、生成、混合和对话）、视觉提示模型（如 SegGPT、SAM）和基于异构模态的模型（如 ImageBind 和 Valley）。我们介绍了基础模型背后的背景理论，简要涵盖了从架构到提示工程（第 2 节）。我们的工作对最近的视觉基础模型进行了广泛而最新的概述（第 3、5、6 和 7 节）。最后，我们详细讨论了计算机视觉基础模型面临的挑战和潜在的研究方向（第 8 节）。

2.PRELIMINARIES

首先定义了本调查的基础模型和范围。
然后，我们将简明扼要地介绍背景概况，以帮助读者理解材料的其余部分。我们重点关注计算机视觉基础模型的三个主要促成因素：
- 模型架构；
- 训练目标；
- 大规模训练和提示。

2.1 Foundational Models and Scope of the Survey(基本模型和调查范围)

基础模型的定义：

基础模型一词是由斯坦福以人为中心的人工智能研究所的 Bommasani 等人首次提出的。基础模型被定义为 “以自我监督或半监督的方式在大规模数据上训练的基础模型，这些模型可适用于其他几个下游任务”。向基础模型的范式转变意义重大，因为它可以用更广泛和通用的基础模型取代几个狭隘的特定任务模型，这些模型可以一次训练并快速适应多种应用。这不仅能快速开发模型，为域内和域外场景提供更好的性能，还能通过在海量数据集上训练的大规模基础模型获得所谓的智能 “突现特性”。

引出本文的调查范围：多模态（视觉和语言）基础模型：

最近，计算机视觉在基础模型的推动下取得了显著进步，大量文献涵盖了判别模型和生成模型。在本调查中，我们将重点关注在大规模数据上训练的多模态（视觉和语言）基础模型，这些模型可适用于涉及非图像输出（如生成文本、分割掩码）的多项计算机视觉任务。需要注意的是，我们不涉及旨在模拟数据分布的图像生成模型，如 GANs、VAEs 和 Diffusion 模型，因为该领域已有专门的研究，而且前一类模型可以涵盖更广泛的下游应用。

2.2 Architecture Types(架构类型)

如图 2 所示，视觉语言（VL）模型主要采用四种架构设计：

第一种介绍双编码器架构，即利用不同的编码器分别处理视觉和文本模式。这些编码器的输出随后通过目标函数进行优化。
第二种架构类型是融合架构，它包含一个额外的融合编码器，该编码器采用视觉编码器和文本编码器生成的表征，并学习融合表征。
第三种类型是编码解码器（Encoder-Decoder），由基于编码-解码器的语言模型和视觉编码器组成。
第四种架构类型是 “适配 LLM”，它利用大型语言模型（LLM）作为核心组件，并使用视觉编码器将图像转换为与 LLM 兼容的格式。

要想更全面地了解这些架构，我们建议读者参阅调查报告中讨论每项工作的相应章节。接下来，我们将讨论用于训练不同架构类型的损失函数。

在这里插入图片描述

2.3 Training Objectives（训练目标）

2.3.1 Contrastive Objectives（对比目标）

图像-文本对比（ITC）损失：

为了从未标明的图像-文本数据中学习，[215, 129]利用了一种简单的图像-文本对比（ITC）损失，旨在通过学习预测正确的图像-文本对来学习表征。给定一批 $N$ 个示例，ITC 损失的目的是在 $N\times N$ 种可能的配置中匹配正确的图像-文本对。ITC 损失使 $N$ 对正确配对之间的余弦相似度最大化，使 $N^2-N$ 对错误配对之间的余弦相似度最小化。假设 $x_i, t_i)$ 是第 $i$ 个图像-文本示例， $v_i, t_i)$ 是其对应的表示，那么图像-文本损失的计算公式如下：
$\mathcal{L}_{v2t} = -log \bigg[ \dfrac{\exp(sim(v_i, t_i)/\tau)}{\sum_{j=1}^N \exp(sim(v_i, t_j)/\tau)} \bigg]$
其中 $\tau$ 为温度。文本到图像的损失也是以类似方式计算的，总损失是这两个项的总和，即 $\mathcal{L}_{ITC} = \dfrac{1}{N}\sum_{i=1}^N [\mathcal{L}_{v2t} + \mathcal{L}_{t2v}]$ 。

图像-文本匹配（ITM）损失：

图像-文本匹配（ITM）损失旨在正确预测一对图像和文本是正匹配还是负匹配。在此过程中会添加几个感知器层，预测图像和文本匹配的概率 $p^{itm}$ 。然后根据交叉熵损失计算损失。

其他损失：

与 ITC 和 ITM 类似，随后的论文中也使用了几种对比损失。这些损失包括基于图像的自我监督损失（即 Simple Contrastive Learning of Representations (SimCLR) ）和 ITC 损失的变种（即 FILIP 损失、Text-to-Pixel Contrastive (TPC) Loss）。FILIP Loss、Text-to-Pixel Contrastive (TPC) Loss 、Region-Word Alignment (RWA) 、Multi-label Image-Text Contrastive (MITC) 、Unified Contrastive Learning (UniCL) 、Region-Word Contrastive (RWC) Loss）。

2.3.2 Generative Objectives（生成目标）

Masked语言建模（MLM）损失：

屏蔽语言建模（MLM）损失是一种双向、非随意的语言建模损失，旨在重建被Masked的标记。让我们假设 $\hat{x}^t$ 是被Masked的输入标记，其中一定比例的标记被随机Masked并替换为某些特殊标记。MLM 的目的是在给定Masked tokens的情况下对 $x^t$ 进行建模、
$\mathcal{L}_{\text{MLM}} = - E_{x^t \sim D} \big[ \log p(x^t | \hat{x}^t) \big].$

语言建模（LM）损失：

语言建模（LM）损失旨在以自动递归的方式为语言生成建模。它根据之前的标记（ $< l$ ）对当前标记（ $l$ -th）进行预测建模：
$\mathcal{L}_{\text{LM}} = - E_{x^t \sim D} \bigg[ \sum_{l=1}^L \log p(x^t_l | x^t_{<l}) \bigg]$
其中， $L$ 是tokens总数。

标准图像字幕（Cap）损失：

标准图像字幕（Cap）损失的目的也是根据之前的token和图像（ $x^v$ ）预测下一个token：
$\mathcal{L}_{\text{Cap}} = - E_{x \sim D} \sum_{l=0}^L \log p(x^t_l | x^t_{<l}, x^v)$
其中 $x = [x^v, x^t]$ 。与此类似，Alayrac 等人提出的 Flamingo Loss 也是根据之前的图像和文本标记对第 $l$ 个标记进行预测。这与字幕损失不同，因为标记由多个交错的图像和文本输入组成。前缀语言建模（PrefixML）将语言扩展到视觉语言建模损失。它认为图像是文本描述的前缀，因为它们出现在网络图像之前，因此将图像标记附加到文本标记 $x = [x^v, x^t]$ 。然后，随机选择长度（Lp）的前缀序列从文本标记中截断，通过

$\begin{aligned} \mathcal{L}_{PrefixLM}&= - E_{x \sim D}\big[ \log p_{\theta}(x_{\geq L_p} | x_{(x<L_p)}\big] \\ &= - E_{x \sim D} \bigg[ \sum_{l=L_p}^L \log p_{\theta} (x_l | x_{[L_p, l]}, x_{<L_p}) \bigg] \end{aligned}$
$x_l$ 代表当前标记， $x_{[L_p, l]}$ 是前缀序列， $x_{<L_p}$ 是前序列。

其他生成损失：

同样，还提出了其他一些生成损失。例如，屏蔽多模态建模（MMM）损失、半随意语言建模（SemiCasualLM、图像条件屏蔽语言建模（IMLM）损失、图像基础文本生成（ITG）损失、屏蔽图像建模（MIM）和并行预测字幕（CapPa）。

2.4 Large-scale Training（大规模训练）

在推理过程中进行大规模训练和有效提示一直是视觉和语言基础模型的关键要素。我们在此讨论预训练、微调和提示技术的作用（见表 1）。

在这里插入图片描述

2.4.1 Pre-training Data（预训练数据）

大规模数据是现代视觉语言基础模型的核心。用于预训练这些模型的数据集可分为三大类：

图像-文本数据集（如 CLIP [215] 中使用的 WebImageText）
部分合成数据集（如 SAM [140] 中使用的 SA-1B）
组合数据集（如 FLAVA [243] 中使用的 PMD）。

Image-Text Data: CLIP显示，网络规模的图像-文本数据在预训练基础模型方面效果显著。这类数据通常是从网络爬行（如 CommonCrawl 1）中梳理出来的。最终的数据集是过滤过程的结果，过滤过程的目的是去除噪声、无用或有害的数据点。许多后续工作都收集了类似的数据集，如 ALIGN1.8B 、RUC-CASWenLan 、FLD900M 、FILIP300M、WebLi 等）。然而，这些数据集并不公开。为了让更多人了解大规模训练，一些开源数据集整理工作为社区做出了巨大贡献，如 LAION和 COYO-700M 。

Partially Pseudo Labels-based Data (基于部分伪标签的数据): 与图像-文本模型类似，视觉定位也可以从大规模的训练数据中获益，但这种数据集无法在网络上获得。收集定位数据集的成本也很高，因为它们需要大量的人工标注工作。一种经济有效的方法是利用优秀教师（性能好的大模型）将图像-文本数据集转换为掩码-描述数据集。GLIP [156] 最早采用了这一策略，而 Kirillov 等人则通过 SA-1B 将这一策略推向了十亿级规模。整理过程通常包括训练一个生成掩码的优秀教师，然后将其与 NLP 解析器一起用于图像-文本数据集。这些数据集包括 SAM、GLIP 和 KOSMOS-2。GLIP在人类标注的 LVIS 和 Visual Genome数据集上训练了一个教师GLIP，然后利用它来预测带有 NLP 模型检测到的名词短语的图像-文本数据的方框。KOSMOS- 2 中使用的 GRIT 也是以类似方式准备的。SAM [140] 引入了一个由三个阶段（辅助手动、半自动和全自动阶段）组成的数据引擎。他们用这种方法生成了 10 亿个高质量的Mask。

Combination of Datasets (数据集组合): 在网络规模的数据集上进行策划和训练并非总是可行。为了规避这个问题，有几项研究结合使用了基准视觉数据集。这些工作结合了具有图像-文本对的数据集，如字幕和视觉问题解答等。有些作品还使用了非图像-文本数据集，并使用基于模板的提示工程将标签转换为描述。此外，与视觉定位相关的工作也利用了接地数据集，如 COCO、OpenImages、Objects365。

2.4.2 Fine-tuning（微调）

微调主要在三种情况下使用：提高模型在特定任务中的性能（如开放世界物体检测）、提高模型的某种能力（如视觉定位），以及对模型进行指令调整，使其能够解决不同的下游视觉任务（如 InstructBLIP [57]）:

首先，即使只对线性层进行微调，也能提高模型在特定任务中的性能。因此，特定任务数据集（如 ImageNet）可用于改进针对特定任务的预训练模型。
其次，一些研究通过在基础数据集上对模型进行微调，利用预训练的视觉语言模型来完成基础任务。例如，Minderer 等人在检测数据集上对视觉Transformer进行了微调，从而创建了一个开放词汇的物体检测器。
最后，一些研究（如 InstructBLIP）将视觉数据集转化为指令调整数据集，使 VL 模型能够用于下游任务。

2.4.3 Prompt Engineering（提示工程）

提示工程主要用于大型语言模型（LLM），使其完成特定任务。在视觉语言模型或基于提示的视觉模型中，提示工程主要用于两个目的：将视觉数据集转换为图像文本训练数据（如用于图像分类的 CLIP），为基础模型提供人类难解性，以及将视觉语言模型用于视觉任务。

大多数视觉数据集由图像和相应的单词标签组成。为了在视觉数据集上利用视觉语言模型，有几项研究利用了基于模板的提示工程。在这种提示工程中，一套模板被用来根据标签生成描述。例如，“{标签}的图像”、“{类型}的一种”。正如文献所指出的，额外的上下文有助于模型的建立，因此视觉语言模型可以在训练或评估过程中利用这些文本提示。

在了解了用于训练视觉基础模型的架构类型、目标和数据之后，接下来我们将解释其主要类别，即文本提示（第 3 和 4 节）和视觉提示（第 5 节）模型，以及异构模态（第 6 节）、通识（第 5.2 节）和嵌入式（第 7 节）基础模型（视觉语言基础模型分类法见图 3）。
在这里插入图片描述

3.TEXTUALLY PROMPTED MODELS（文本提示模型）

传统上，视觉语言模型主要用于需要同时理解视觉和文本模式的任务。然而，随着 CLIP 的出色表现，基于语言监督的模型已占据重要地位并成为主流方法。在本节中，我们将重点探讨以语言为主要监督来源的方法。

根据其训练目标，这些文本提示模型可大致分为三大类：对比法、生成法和混合法。我们将在第 3.1 节讨论基于对比的方法，在第 3.2 节讨论基于生成的方法，在第 3.3 节讨论混合方法。我们在表 2 中概述了这些方法。我们还在表 3 中展示了这些模型在一组具有代表性的任务中的比较。

在这里插入图片描述

3.1 Contrastive Learning (CL)(对比学习)

SOTA 计算机视觉模型是为预测一组预先确定的类别而训练的，这限制了其通用性和可用性。传统上，大多数深度学习方法都采用有监督的预训练（如在 ImageNet 上训练）和弱监督（如在图像的哈希标签上训练）。Radford 等人主张从自然语言中存在的视觉概念中学习感知，并提出了对比语言图像预训练（CLIP）。在本节中，我们将讨论 CLIP 及其后基于对比的方法。我们将它们分为两部分：通用模型的对比方法（第 3.1.1 节）和视觉基础模型的方法（第 3.1.2 节）。图 4 展示了 CLIP 架构及其主要变体。

在这里插入图片描述

3.1.1 CL for General Purpose Foundational Models（通用基础模型的对比学习）

在本节中，我们将解释旨在训练通用视觉语言基础模型的对比方法。这些方法的主流牵引力始于 CLIP，然而，随后的许多努力提供了更好的方法来利用数据集，提出了修改后的架构和训练方法，扩大了其用途，复制了它，并研究了它的特性和缩放规律。我们在此介绍这些方法。

完全基于 CL 的方法:

鼻祖—CLIP模型：

Methods Solely based on CL. Radford 等人建议在批量图像及其标题正确配对的对比预训练任务中联合训练图像和文本编码器。CLIP 模型由图像编码器（ViT 或缩放 CNN）和文本编码器（类 GPT transformer）组成。这些编码器为 $N$ 对图像-文本生成一个多模态嵌入空间。通过对称交叉熵损失，对 CLIP 进行训练，以最小化 $N$ 对正确图像-文本嵌入的余弦相似度，最大化 $N^2 - N$ 对错误图像-文本嵌入的余弦相似度。CLIP 框架的一个主要动机是自然语言监督数据的规模。为了对模型进行大规模训练，作者还从互联网上收集了 4 亿个图像-文本对数据集。CLIP 框架在这种大规模数据集上训练时表现出了卓越的性能。CLIP 显示出良好的zero-shot泛化能力，对自然和合成分布偏移的鲁棒性显著提高，并能很好地进行基于线性探针的微调。

打破数据集规模—ALIGN模型：

Radford 等人使用的视觉语言数据集需要进行非同一般且计算成本高昂的预处理和清理，从而限制了数据集的规模。在 ALIGN中，Jia 等人没有采用这些预处理步骤，而是从 Conceptual Captions Dataset中收集了 10 亿个有噪声的图像标题数据集。他们在该数据集上使用类似 CLIP 的归一化对比目标训练了基于双编码器的架构。为了对齐视觉嵌入和语言嵌入，通过归一化软最大损失（normalized softmax loss）对图像-文本嵌入的余弦相似性进行了优化。作者表明，数据集的规模可以弥补数据集的噪声特性。由此产生的对齐图像-文本表示在跨模态匹配/检索任务和zero-shot分类方面表现出色。

适用于空间-时间-模态空间—Florence模型：

Yuan 等人认为，真正的基础模型应适用于空间-时间-模态空间。具体来说，基础模型应能处理从粗到细（空间）、从静态到动态（时间）以及从 RGB 到多模态（模态）的表征。为了实现这种程度的通用性，他们引入了Florence模型，该模型从在大型策划数据集上进行类似 CLIP 的预训练开始，并使用改进的对比目标和高效训练。然后对预训练模型进行扩展，为每个空间设置三个不同的适配器头。基于动态 DETR 的适配器通过大规模对象检测数据集学习细粒度密集任务的表示。同样，METER头用于视觉语言表征，CSwin头用于基于视频的理解。这一框架产生了一个跨领域通用的基础模型。

基于图像的自我监督—SLIP模型：

大多数视觉语言方法都侧重于语言监督，而忽略了视觉部分的作用。Mu 等人[200]研究了基于图像的自我监督学习能否帮助语言监督框架。为此，作者提出了 SLIP，它增加了 SimCLR损失的适应性，用于基于输入图像的不同视图或增强的自我监督。作者在 YFCC15M 数据集上训练了类似 CLIP 的模型，结果表明，在一系列任务（包括零点和基于线性探针的方法）中，SLIP 的表现优于单独的语言监督或自我监督。

面对图文相关性较弱情况—WenLan模型：

大多数基于文本图像的方法都假定图像对之间具有很强的语义相关性。然而，网络规模的数据中充斥着相关性较弱的配对（例如，不能准确反映图像的标题）。Huo 等人提出的 WenLan 解决了这一问题，它使用双塔架构和基于 MoCo的跨模态对比学习，可以在有限的 GPU 资源中利用更多的负样本。这一策略同时利用了负样本和正样本，以及基于文本到图像和图像到文本的对比损失。这就产生了一个更好的模型，同时也能有效地进行训练，并在许多任务中显示出更好的性能。他们还策划了首个拥有 5 亿个数据点的大规模中文图像文本数据集。他们对所提出的模型进行了训练，以解决中文任务，并展示了其卓越的zero-shot能力。

细粒度图文特征交互—FILIP模型：

类似 CLIP 的方法为每种模态使用单独的编码器，这使得它们的推理效率很高，因为每个编码器都可以解耦，而且可以利用预先计算的表征。然而，这些模型仅仅依赖于跨模态交互的全局特征，很难捕捉到模态之间更细粒度的信息。 Yao 等人提出了一种跨模态后期交互方法，对标记化的跨模态交互进行建模，这有助于捕捉细粒度的语义对齐。提出的 FILIP（细粒度交互式语言图像预训练）损失最大化了标记视觉嵌入和文本嵌入之间的相似性。具体来说，计算每个输入视觉标记与所有文本标记的相似度，并使用最大相似度。同样，也会计算每个文本标记的最大相似度。然后，使用简单的平均值来计算总体损失。这意味着每个图像标记都会使用最接近的文本标记。同样，也会使用每个文本最接近的图像patch。此外，作者还收集了 3.4 亿个大型图像-文本对来训练他们的模型。在zero-shot分类以及图像-文本检索任务中，他们的方法优于 CLIP 和其他方法。

Mask式对比学习:

提高CLIP效率的掩码式对比训练—FLIP模型：

•Masked Contrastive Learning. 受Masked自动编码器的启发，Li 等人提出了一种名为 FLIP 的高效 CLIP 替代方案，在 CLIP 训练中屏蔽 50-75% 的输入像素。这种屏蔽方案将计算量减少了 2-4倍，允许 2-4 倍的批量，并提高了准确度。FLIP 在达到与 CLIP 相同的精度时，速度要快 3 倍以上。与 CLIP 基准相比，他们的方法可以节省 1800 个 TPU 日。基于这种更快的方法，他们还研究了 CLIP 在不同模型、数据集大小和训练长度之间的扩展。

为了充分利于图像信息—MaskCLIP模型：

Dong 等人认为，对图像的语言描述无法表达完整的信息，因为图像是连续的细粒度信号。为了在对比视觉语言训练中充分利用图像，他们提出了 MaskCLIP 方法，即随机屏蔽输入图像，同时使用基于均值教师的自馏来学习局部语义特征。具体来说，整幅图像和被遮挡图像的表示分别来自教师和学生的平均值，两个表示之间的交叉熵损失最小。同样，语言编码器也使用了 BERT预训练。对比学习框架中的这两项修改有助于模型学习局部和细粒度语义。在多个视觉数据集上，MaskCLIP 在zero-shot、线性探针和微调设置下显著提高了 CLIP 的性能。

在Mask视觉输入的同时解决不稳定性和优化效率问题—EVA-CLIP模型：

本节中的前几种方法主要侧重于通过遮挡提高 CLIP 的效率，而 EVA-CLIP 则在遮挡视觉输入的同时解决了不稳定性和优化效率问题。具体来说，Sun 等人提出了提高训练稳定性和降低计算成本的解决方案，包括改进初始化、更好的优化器和随机屏蔽图像。他们基于高效解决方案的模型 EVA-CLIP 性能更佳，而且是在开源资源中的数据集版本上进行训练的。Fang 等人在扩展模型方面做了补充。他们屏蔽了图像文本输入和 CLIP 损失，将模型扩展到 10 亿个参数。他们的扩展模型被命名为 EVA，在 COCO、LVIS、ImageNet1k 等多个下游任务中表现优异。

缩放和复制 CLIP(训练机制，训练数据集):

•Scaling and Reproducing CLIP. OpenAI 发布了 CLIP 的预训练权重和代码。但是，他们并没有发布训练机制和数据集，这限制了对其进行研究的能力。为了提高可访问性，随后的几项工作开源了大规模图像-文本数据集，复制了 CLIP 并研究了其特性。CLIP 的卓越性能取决于大规模图像-文本数据集，而该数据集尚未公开。为了解决这个问题，Schuhmann 等人发布了 LAION- 400M，这是一个由 4 亿个数据点组成的图像文本数据集，这些数据点是在过滤了常见的抓取后策划而成的。Schuhmann 等人进一步扩大了该数据集的规模，并发布了名为 LAION-5B 的多语言、多模态数据集，其中包含通过现有 CLIP 模型过滤后从普通抓取中整理出来的 58 亿个数据点。Open-CLIP 利用大规模 LAION 数据集，训练和复制了 CLIP 训练实验，并研究了其特性。Cherti 等人通过研究 CLIP 的缩放规律对这一开源工作进行了补充。在 LAION-5B数据集上训练的 OpenCLIP 表明，随着数据、模型和计算的扩展，其性能也在不断提高。他们还观察到与 OpenAI 的 CLIP在缩放方面存在一些差异，并推测这种差异是由于训练分布的不同造成的。

高效训练配方（小规模且快速）—CLIPA模型：

众所周知，CLIP 的性能随模型和数据集的大小而变化。Li 等人发现了一个惊人的发现：较大的图像-文本模型允许在训练过程中使用较小的标记大小，而不会明显牺牲准确性。基于这一发现（即逆比例法则），他们引入了一种新的高效训练配方和在学术规模资源上训练的 CLIP 类模型，并将其命名为 CLIPA。CLIPA 在 8 个 A100 GPU 上分别进行了 2 天、3 天和 4 天的训练，分别达到了 63.2%、67.8% 和 69.3% 的zero-shot ImageNet 准确率。基于 CLIPA 观察到的反比例规律，Li 等人以更少的计算预算和训练成本大规模训练了类似 CLIP 的模型。通过大规模训练，他们展示了两个有趣的结果。**首先，他们证明了逆比例法则也适用于微调：模型可以在较少的输入标记上进行微调。**其次，与较小的模型相比，当使用相同数量的输入标记进行微调时，较大的模型表现出较小的性能下降。他们训练的 CLIPA 模型在 8 个 A100 GPU 上进行了 4 天的训练后，达到了 69.3% 的 ImageNet 零点分类准确率。一些研究从不同的角度探索了 CLIP 和对比方法。

3.1.2 CL for Visual Grounding Foundational Models（视觉基础模型的对比学习）

CLIP 及其变体在需要全局信息的任务（如分类和图像文本检索）中表现出色。然而，它们在需要细粒度、像素和区域级信息的定位任务中表现不佳。图 5 举例说明了 Zhong 等人和 Ghiasi 等人的两个失败案例。在本节中，我们将讨论旨在利用对比学习完成视觉定位任务的基础模型。
在这里插入图片描述

定位任务的CLIP适配器:

用于定位—MaskCLIP模型：

•CLIP-adaptation for Grounding: Dong 等人的 MaskCLIP 模型较早地研究了用于对比学习的掩蔽自蒸馏。与之不同的是，Zhou 等人的 MaskCLIP模型建议使用 CLIP 模型进行变化最小的密集预测。为此，他们建议从视觉编码器中提取密集特征，并使用文本嵌入进行分类。为了进一步加强密集预测，他们还建议训练分类骨干。他们的方法表明，在定位任务中，CLIP 具有合理的性能。

用于物体检测—RegionCLIP模型：

Zhong等人提出的RegionCLIP扩展了CLIP，明确地将图像区域与其文本描述对齐，用于物体检测。其训练包括三个阶段：基于 CLIP 的图像-文本预训练、类似 CLIP 的区域-文本对比训练以及针对特定对象检测的微调。由于大规模的区域描述数据集并不广泛，作者利用区域类名称、提示模板和预训练的 CLIP 来引导数据集。具体来说，他们使用预先训练好的教师编码器来提取区域。所有类别标签都按照简单的提示模板转换成短语，并利用教师语言编码器获得相应的嵌入。计算图像特征与类嵌入之间的匹配得分，并将得分最高的一对作为伪区域-文本对。作者在这些伪区域-描述对上对基于双编码器的模型进行了预训练。最后，他们还提出了一种简单的微调方法，以减轻区域-文本对的噪声特性。对于特定任务的微调，视觉编码器被用作从预训练 ViT 启动的基础网络。现成的区域建议网络（RPN）用于定位对象，语言编码器的嵌入则用于获取对象类别。RegionCLIP 具备zero-shot功能，并在传输时为开放词汇对象检测建立了新的 SOTA。

用于图像分割—CRIS模型：

Wang 等人将 CLIP 扩展用于参考图像分割任务，并提出了 CLIP 驱动的参考图像分割（CRIS）。参考图像分割任务的目的是根据输入的文本提示分割图像的一个区域 [118]，因此很自然地适合 CLIP 类框架。然而，CLIP 并不是为学习像素级信息而设计的，因为它侧重于全局特征。Wang 等人[281]建议对 CLIP 框架进行两处修改，使其能够学习像素级信息。 首先，引入视觉语言解码器来捕捉长距离依赖关系。其次，引入文本到像素的对比损失，使文本特征与相应的像素级特征保持一致。CRIS 在三项参考图像分割任务中的表现优于之前的 SOTA。

直接本地化视觉语义对齐:

Phrase定位任务—GLIP模型：

•Direct localized Visual-Semantic Alignment: 一些研究工作没有针对定位任务调整 CLIP，而是利用强大的预训练专业模型，并通过对比学习对其进行修改，以添加语言视觉建模。Phrase grounding是将输入文本中的短语识别为图像中相应区域的任务。Li 等人认为，短语定位是一种可扩展且有效的对象检测预训练任务，因此将对象检测任务重新制定为短语定位。这对两个任务都有好处：短语定位提供了更好的视觉概念，物体检测为边界框提供了更多注释。他们提出了定位语言图像预训练（GLIP），在短语区域数据集上训练基于融合层的双视觉语言编码器架构。为了大规模地训练模型，预先训练的定位模型被应用于图像-文本数据集，以获得短语-区域伪标签。要将 GLIP 模型用于对象检测数据集，需要将所有类别名称合并到一个句子中，并提示模型输出与区域相关的正确类别。这种简单的缩放方法为 14 项下游任务带来了显著的改进，其微调版本在 COCO 数据集上创造了新的 SOTA。

Note: 短语定位（Phrase Grounding）任务是一种计算机视觉任务，旨在将自然语言中的短语或短句与图像中的相应区域进行关联。具体来说，该任务要求算法从给定的图像和描述性的自然语言短语中，准确地找到图像中与该短语描述相对应的区域或物体。

开放集语言引导的对象检测器—Grounding-DINO模型：

Liu 等人没有扩展 CLIP 框架，而是建议将基于Transfromer的最先进的对象检测器 DINO与语言预训练相结合，以实现开放集泛化，因此将其命名为 Grounding-DINO。为此，他们将封闭集对象检测器分为三个部分，包括主干、颈部和头部，并在每个层次上融合了语言特征。文本和图像骨干用于提取多尺度特征，这些特征被输送到颈部。然后，颈部生成的文本和图像特征将用于创建语言引导的查询选择。这些跨模态查询与图像和文本特征一起被送入一个跨模态解码器，该解码器具有图像和文本交叉注意和 FFN 层。该模型采用预测对象和语言标记之间的对比损失以及特定任务损失（如 L1 损失、Grounded Intersection over Union (GIOU) 损失和 Lin 等人的焦点损失）进行端到端训练。在封闭集、开放集和引用对象检测方面，GroundingDINO 的表现明显优于 GLIP 和其他竞争对手。

开放词汇对象检测—OWL-ViT模型

Minderer 等人提出了一种基于 CLIP 的开放词汇对象检测训练方法，称为 OWL-ViT。他们提出的训练方法包括两个阶段：用于学习图像级特征的类似 CLIP 的预训练和用于开放词汇对象检测的对象级特征微调阶段。具体来说，基于 ViT 的图像编码器的输出包括一个用于分类嵌入的投影层和一个用于方框预测和各自概率的 MLP 头。为了实现开放式词汇检测，语言编码器会根据输入提示生成文本嵌入（查询），而每张图像的输入提示都可能不同。因此，视觉编码器的作用是预测边界框以及查询应用于边界框的概率。这种双编码器架构首先通过类似 CLIP 的对比学习进行训练，然后在对象检测数据集上进行微调，并采用适合长尾/开放词汇对象检测的双匹配损失。

note :开放词汇对象检测（Open Vocabulary Object Detection）是指在对象检测任务中处理各种不同类别和未知类别的物体。传统的对象检测算法通常在训练阶段需要提前定义一个固定的物体类别集合，而开放词汇对象检测则着眼于解决在实际场景中可能出现的各种未知类别物体的检测问题。

执行分组的定位任务—OpenSeg模型：

Ghiasi 等人认为，类似 CLIP 的方法在定位任务中表现不佳，因为它们没有先进行分组，因此会丢失局部信息。为了解决这个问题，他们提出了 OpenSeg，在分组后执行视觉语义配准。他们的方法包括学习分割掩码、对这些掩码进行视觉语义对齐，以及生成用于大规模预训练的伪掩码。他们的模型用分割掩码表示图像，从而实现了基于分割的弱监督学习和区域词基础。这种类型的训练需要分割标签，因此难以扩展。为了解决扩展问题，作者采用了 MuST，首先在仅有分割损失的分割数据上训练模型。该模型用于生成图像-文本对的伪标签。基于 openSeg 的模型可以很好地扩展到新的数据集，并在多个基准测试中优于之前的 SOTA。

基于视觉分组机制的语义分割—GroupViT模型:

Xu 等人提出利用视觉分组机制，只需语言监督即可获得语义分割。为此，他们提出了一种分层分组视觉Transformer（GroupViT），作为图像编码器与标准的 CLIP 类语言编码器一起使用。提议的 GroupViT 有多个分组层，通过学习段标记，将图像区域分组为类似视觉概念的渐进式大段。每个阶段还包括转换层，将前几个阶段的较小分组的片段标记汇总为逐渐增大的片段。其架构概览如图 6 所示。GroupViT 采用图像-文本对比（ITC）损失和带提示工程的多标签对比损失进行训练，该工程使用提示来创建单张图像的多个描述。对于zero-shot分割，最后一层中的分段标记对应于一个任意形状的分段，其类别可通过找到与分段标记具有最大相似性的类别标签来确定。与专门的 SOTA 方法相比，GroupViT 在不需要任何监督的情况下表现出很强的竞争力。同样，ODISE也是一种开放式词汇分割模型，它利用了预先训练的扩散特征。

Note: 语义分割（Semantic Segmentation）是计算机视觉领域的一个重要任务，用于将图像中的每个像素分类为不同的对象或区域。与对象检测不同，语义分割不仅需要检测到物体的存在，还需要对物体进行精细的像素级别区分和分类。

在这里插入图片描述

3.2 Generative Learning（生成学习）

引出LLMs训练在与视觉相关的语言生成任务上的工作：

大型语言模型（LLMs）在 NLP 任务中表现出了令人印象深刻的zero-shot和few-shot性能。然而，这些 LLMs 缺乏视觉模式，直到最近才开始使用视觉和语言模式训练多模态模型。视觉-语言对比模型也显示出了良好的泛化能力，但它们只能解决有限的问题，因为它们提供的是文本和图像之间的相似度得分。在此，我们将介绍旨在通过将LLMs训练在与视觉相关的语言生成任务上，从而让 LLM 拥有一双洞察世界的眼睛的研究成果。

利用多模态输入进行上下文学习:

•In-context Learning with Multimodal Inputs（利用多模态输入进行情境学习）: 大型语言模型是优秀的few-shot学习者，但在传统形式下，它们对视觉模式视而不见。在此，我们将介绍利用交错图像-文本数据赋予 LLM 视觉模态的方法。

LLMs基于图像文本提示生成字幕—Frozen模型

Tsimpoukelli 等人提出的 Frozen 是一种无需更新权重即可在 LLM 中添加视觉模态的高效方法。Frozen 由一个图像编码器组成，该编码器将输入图像编码到 LLM 的词嵌入空间，这样这些 LLM 就能生成图像标题。为了学习联合嵌入，LLM 被冻结，视觉编码器在字幕数据集上进行训练，任务是根据图像条件生成字幕。虽然 Frozen 是在单个图像-文本对上进行训练的，但它可以处理多个图像-文本对的有序集合，从而能够完成few-shot任务。在推理过程中，LLM 编码器和视觉编码器会收到有序的文本和视觉提示。文本嵌入和视觉嵌入被串联起来，并输入到 LLM 的解码器中，由解码器自动生成文本输出。Frozen 已在各种视觉语言任务中展示了few-shot视觉语言能力。

VLM仅使用少量示例就能适应新任务—Flamingo 模型

与 Frozen 类似，Alayrac 等人的目标也是建立仅使用少量示例就能适应新任务的模型。为此，他们提出了一系列新的 Flamingo 模型，利用固定的预训练视觉和语言模型以及基于 Perceiver Resampler 的桥梁。Perceiver Resampler 通过产生固定数量的视觉标记，将视觉编码器与 LLM 连接起来。这些视觉标记利用 LLM 各层之间交错的门控交叉注意密集块，为 LLM 的输出提供了条件。这些新的层为 LLM 纳入视觉信息提供了一种有效的方法，并根据前面的文本和一组图像或视频进行下一个标记预测任务的训练。由于感知器重采样技术可将不同大小的视觉输入转换为少量视觉标记，因此 Flamingo 模型可处理大量图像和视频输入。在推理过程中，交错支持示例（图像、文本）或（视频、文本）之后是输入模型进行计算的查询视觉输入。Flamingo 在几项视觉语言任务中都表现出了出色的寥寥几笔的性能，甚至超过了微调模型的先进水平，尽管它所需的注释示例要少得多。Awadalla 等人[11]的目标是建立一个名为 OpenFlamingo 的 Flamingo 模型开源版本。他们主要沿用了 Flamingo 的原始架构，但在新的多模态 C4 数据集和来自 LAION-2B 的 1000 万个样本上进行了训练，并发布了开源检查点。他们的模型利用了 LLaMA-7B 和 CLIP 的视觉编码器，性能达到了 Flamingo 模型的 80%。

作为其他模式通用接口的 LLMs:

MetaLM模型：

•LLMs as a General Interface for other Modalities（作为其他模式通用接口的 LLMs）:Hao 等人提出利用语言模型作为通用任务层，并通过预先训练的编码器将其他模式与之对接。Hao 等人提出的 MetaLM 是一种半随意模型，由一个单向变换解码器和多个双向编码器组成，这些编码器通过连接器层与解码器相连。通过这种方式，MetaLM 可以享受随意语言模型出色的零点和少点能力，以及非随意编码器更好的可转移性。作者建议在一个新的半随意语言建模目标上联合训练编码器和解码器，该目标可根据之前的标记和编码表征学习生成下一个单词。这一联合框架继承了语境学习、指令跟随和微调能力。为了了解 MetaLM 的能力，我们进行了大量实验。在 NLP 任务中，MetaLM 在多任务微调、单任务微调、指令调整零拍和上下文学习方面的表现都优于 GPT。同样，在两个视觉语言任务（字幕和 VQA）上的零点泛化、上下文学习和微调能力也显示出 MetaLM 优于以往强大基线的性能。

KOSMOS-1模型：

继 MetaLM之后，Huang 等人旨在将感知与 LLM 相结合，以创建可用于多种模态的模型。所提出的模型 KOSMOS1 由一个基于磁场的 LLM作为通用接口，以及 xPos编码器组成，用于编码不同的模态。该模型在由文本语料库、图像字幕对和交错图像字幕对组成的网络规模数据上进行训练，以生成给定语境的下一个标记。为了进一步与人机界面保持一致，训练数据还包括几个纯语言指令调整数据集，这些数据集也作为语言建模任务处理。为了证明 KOSMOS-1 的能力，我们在 NLP（如语言生成、无 OCR 文本分类）、跨模态迁移（如常识推理）、非语言推理（基于瑞文渐进 Matirces 的 IQ 测试 [28, 219]）、视觉语言（如字幕）和视觉（如零镜头分类）等方面进行了大量实验。这些实验结果表明了 LLMs 的通用性

KOSMOS-2模型：

Peng 等人扩展了 KOSMOS-1 的定位能力，并将其命名为 KOSMOS-2。为此，他们保留了 KOSMOS-1 的架构和训练目标，并提出了一个提取文本跨度（即名词短语和指代表达）并将其链接到图像中相应区域的管道。该流程包括两个步骤。首先，根据预先训练好的检测器从文本中提取非块，并将其与图像中的区域连接起来。其次，通过遍历名词依赖树，将名词块扩展为引用表达式。基于这一流程，他们从 COYO-700M 和 LIAON-2B中整理出 GRIT（GRounded Image-Text pairs），包括9100 万张图片、115 个文本跨度和 1.37 亿个边界框。输入文本被表示为类似于 markdown 的超链接，其中的边界框坐标被转换为离散的位置标记，并添加到相应的段落中。该模型由来自 KOSMOS-1 和 GRIT 的多模态军团组合训练，用于下一个标记预测。训练结束后，在纯语言数据和基础指令数据上进行指令调整。KOSMOS-2 在语言和视觉任务、接地任务以及引用任务上都取得了优异的成绩，从而将其扩展到了更多样化的下游任务中。

使用通用生成目标进行训练:

VLP—SimVLM模型

•Training with a General Generative Objective（使用通用生成目标进行训练）: 尽管 LLM 是在简单的语言建模任务中训练出来的，但它们表现出了卓越的能力。受这一成功经验的启发，许多研究都希望将其应用到视觉语言建模中。在此，我们将介绍在简单建模任务上提出或训练模型的方法，用于视觉语言模型的预训练。Wang 等人提出了一个简约的视觉语言模型预训练框架。提出的简单视觉语言建模（SimVLM）框架以前缀语言建模（PrefixLM）为目标，训练编码器-解码器风格的模型。PrefixLM 将图像视为文本描述的前缀，从而迫使模型在随机选择长度（ $T_p$ ）的图像及其部分描述（ $x<T_p$ ）的情况下完成描述（ $x≥T_p$ ）。该模型采用简单的基于Transformer的编码器-解码器架构，将文本和视觉嵌入（由 ResNet 的前三个模块提取）输入编码器，解码器输出文本字符串。该模型是在有噪声的图像-文本对数据集上用前缀 LM 训练出来的。SimVLM 不需要特定任务的架构或训练，在多项视觉语言任务上都优于之前的预训练方法和最先进的方法。

联合掩码重构语言建模VLP—MaskVLM模型：

由于文本和图像可以用不同的格式表示同一现实，Kwon 等人提出了联合掩码重构语言建模，其中一个掩码输入以另一个未掩码输入为条件进行重构。他们的模型称为 MaskVLM，由图像和语言编码器和跨模态解码器组成，图像和语言编码器对相应的模态进行编码，而跨模态解码器则对两种模态进行交叉关注。按照 Devlin 等人和 He 等人的方法，对图像和文本进行随机屏蔽，并在联合条件重构任务以及图像-文本对比（ITC）和图像文本匹配（TIM）任务中对模型进行训练。这就产生了一个高效的模型，它在低数据量条件下的视觉语言任务中表现优于同类模型。

基于语言建模目标训练的模块化VLM—mPLUG-OWL模型

Ye 等人提出了 mPLUG-OWL，一种基于语言建模目标训练的模块化视觉语言模型。该模型由图像编码器、图像抽象器和冻结 LLM 组成。该模型分两个阶段进行训练。在第一阶段，图像编码器和视觉抽象器在具有语言建模任务的图像-文本对上进行训练。在第二阶段，使用纯语言和多模态数据集对视觉抽象器和低库自适应模块进行微调。mPLUGOWL 在多轮对话以及指令理解、视觉理解和知识转移方面表现出色。

基于字幕的模型Cap与CLIP对比：

自 CLIP证明对比学习具有显著的扩展特性以来，对比方法已成为视觉语言预训练的常规方法。 Tschannen 等人在网络规模的图像-文本对数据集上重新审视了字幕在视觉语言预训练中的有效性，并将其与对比方法进行了系统比较。首先，他们比较了基于字幕的模型（Cap）与 CLIP 类型模型在类似规模和计算预算下的性能。他们在标准的下一单词预测任务上训练了一个简单的编码器-解码器架构（ViT 作为视觉编码器，Transformer作为解码器）。他们的实验结果表明，字幕模型：a) 在zero-shot分类方面通常落后于 CLIP 风格模型，但差距会随着规模的扩大而缩小；b) 在few-shot分类方面与 CLIP 风格模型不相上下，甚至更胜一筹；c) 在使用大量标注数据进行微调时，在分类任务方面具有竞争性表现；d) 在多模态任务方面，使用 ViT 骨干的字幕模型优于 CLIP 风格模型。其次，他们提出了一种名为 CapPa 的新的生成式预训练方法，如图 7 所示，该方法在标准自动回归预测（CaP）和并行预测（Pa）之间交替训练，在并行预测中，整个标题会被预测一次。CapPa 预训练提高了 ViT 的性能。第三，他们通过研究各种架构和训练程序揭示了字幕机的扩展特性，并显示了训练数据和架构扩展后的性能改进。
在这里插入图片描述

3.3 Hybrid Contrastive and Generative Learning（混合对比学习和生成学习）

3.3.1 Foundational Models for Generic Vision-Language Learning（通用视觉语言学习的基础模型）

统一任务：

•Unification of tasks:

混合损失的VLM预训练—UNITER模型：

受 BERT在自然语言处理（NLP）任务中的通用性启发，Chen 等人提出了通用图像-文本表示法（UNITER），这是一种利用传统图像-文本数据集（COCO、Visual Genome、Conceptual Captions、SBU Captions）训练基础模型的方法，可用于异构视觉-语言任务。作者设计了四项预训练任务，涵盖生成性（即屏蔽语言建模（MLM）、屏蔽区域建模（MRM））和对比性（图像文本匹配（ITM）和单词区域对齐（WRA））目标。UNITER 架构由图像和文本嵌入器以及跨模态上下文嵌入transformer组成。这些数据集的文本和图像被输入到各自的嵌入器中以提取嵌入。单个嵌入被输入到跨模态转换器中以获得跨模态表示。该模型在四个不同的视觉语言数据集上进行训练，以优化前面提到的预训练任务。UNITER 在九种不同的视觉语言任务中表现出卓越的泛化能力，在大多数任务中都达到了最先进水平。

物体检测、实例分割、关键点预测和字幕任务统一模型—Pixel2Seqv2模型

Chen 等人[41]提出将四项核心视觉任务（物体检测、实例分割、关键点预测和字幕）重新组合并统一为一个像素-序列界面，在该界面中，任务描述和输出都被转换为标记。他们提出的方法被称为 Pixel2Seqv2，采用了编码器-解码器架构，其中视觉编码器对图像输入进行编码，序列解码器则根据之前的标记和编码图像生成单个标记。该模型是在一个简单的语言建模任务中根据先前的标记和编码图像进行训练的。推理时，根据任务提示和输入图像对输出标记进行采样，并执行特定任务的去标记化。这种 Pixel2Seq 可以高效地解决四种视觉任务，而不需要任何专门的架构或损耗。

视觉任务统一框架（转换为文本生成任务）—VL-x模型：

Cho 等人提出了一种统一框架，可在单一架构中学习不同的计算机视觉任务。这种统一是通过将这些任务重新表述为多模态条件文本生成任务来实现的。提出的的视觉语言（VL-x）采用了预先训练好的编码器-解码器语言模型，如 BART 或 T5 。文本和视觉嵌入信息被输入到该语言模型的编码器中。视觉嵌入是从预先训练好的对象检测器模型中提取的，包括感兴趣区域（RoI）对象特征、RoI 边框坐标以及图像和区域 ID。视觉任务的输出被转换成字符序列，并添加特定任务的前缀（例如分类：鸟）。这种增强文本被编码为学习嵌入，并与视觉嵌入一起输入到语言模型的编码器中。然后，该模型将接受多模态语言建模任务以及相关的视觉语言预训练任务，如视觉问题解答、图像-文本匹配、视觉定位和定位字幕。该框架产生的多任务模型可处理各种输出，其性能与专门模型相当。

通用架构:

•Universal Architectures:

介绍在单模态、跨模态和多模态任务中都能表现出色的新颖的架构

具有独立编码器的纯对比视觉语言模型（如 CLIP、ALIG）表现出令人印象深刻的性能，但不太适合需要同时处理两种模态的多模态问题。另一方面，多模态模型具有跨模态编码器融合和共享注意力的特点，但并不适合单模态视觉或语言任务。在此，我们将介绍一些方法，这些方法旨在通过提出新颖的架构，并根据对比、生成和特定任务损失等多个目标对其进行训练，从而在单模态、跨模态和多模态任务中都能表现出色。

CoCa模型：

Yu 等人提出了一种基于编码器-解码器的统一模型，称为 Contrastive Captioner (CoCa)，它具有单编码器、双编码器和编码器-解码器模型的功能。CoCa 模型由一个单模态图像和文本编码器以及一个带有交叉注意层的解耦多模态解码器组成。单模态编码器是根据对比损失（如 CLIP）进行训练的。这有助于模型学习稳健、一致的全局表征。解耦解码器采用字幕损失生成方法进行训练，这有助于它学习详细的粒度和区域级信息。这两种方法的结合使模型同时具有对比和生成能力。这一策略产生了一个基础模型，该模型在一系列不同的视觉数据集上表现出色在zero-shot、few-shot和light微调设置下，单一训练的 CoCa 模型优于许多专业模型。例如，在zero-shot、few-shot和light微调设置下，它在 ImageNet 上的准确率分别达到了 86.3%、88.0% 和 91.0%。

FLAVA 模型:

Singh 等人认为，一个真正的基础模型必须在视觉、语言和视觉语言任务中都有良好的表现。为此，他们提出了一种名为 FLAVA 的架构，该架构由图像和文本编码器以及多模态编码器、视觉任务头、语言任务头和多模态任务头组成。这使得 FLAVA 既适用于单模态任务，也适用于多模态任务。提出的架构概览见图 8。图像和文本编码器将输入转换为一种表示形式，然后输入到多模态编码器。多模态编码器转换器应用交叉注意并融合两种模态。这种多模态表征被输送到特定模态头（视觉、语言和视觉语言）。为了获得强大的泛化能力，该模型采用了多种单模态和多模态损失进行训练，包括类似于 CLIP 的用于跨模态配准的全局对比损失、遮蔽式多模态遮蔽和图像文本匹配、遮蔽式图像建模、遮蔽式语言建模等。训练包括在监督数据集上对图像和文本编码器进行单模态预训练，然后在图像-文本数据集上进行单模态和多模态联合训练。为了证明 FLAVA 的通用性，我们在 35 个任务中对其进行了评估，包括视觉、语言和视觉-语言任务，结果表明 FLAVA 的性能令人印象深刻。
在这里插入图片描述

BridgeTower模型：

Xu 等人探讨了如何结合来自不同层的单模态编码器的信息。他们提出了桥塔（BridgeTower）架构，在不影响单模态解码器执行单模态任务的能力的情况下，将不同层的单模态解码器的信息结合起来。他们的架构包括一个标准的视觉和语言编码器，以及一个带有多个桥层的跨模态编码器，桥层通过共同关注将两个编码器的顶层连接起来。这些多模态桥可以实现自下而上的跨模态对齐，并融合不同层次的语义视觉和文本特征。他们的研究结果表明，尽管在较小的数据集上进行了训练，但在下游的 VL 任务中表现出了卓越的性能。

PaLI模型：

Chen 等人通过提出一种新的联合缩放架构和一个新的大型多语言图像-文本数据集，研究了缩放对大型图像-文本模型的影响。首先，他们提出了 PaLI，这是一种联合缩放、多语言、模块化的语言-视觉模型，可以执行单模态（语言、视觉）和多模态任务。PaLI 架构包括一个文本编码器-解码器transformer（mT5） 和一个用于视觉标记的 ViT。这两个组件都经过预先训练，只有语言组件经过更新，并在大量视觉和语言任务中进行训练。语言模型也在纯语言理解任务中进行训练，以避免灾难性遗忘。

其次，他们引入了 WebLI、100 亿张图片和 120 亿个alt-text（图片的文本替代4 ）数据集。在训练中，作者使用了该数据集的 10 亿个干净子集。他们还使用了视觉和语言任务特定数据集的组合，如跨度破坏和对象检测。对于特定任务的视觉数据集训练（如物体检测），输出是在基于模板的提示帮助下重新制定的。第三，他们研究了视觉-语言模型的缩放规律，显示了缩放视觉组件的重要性和混合语言模型的优势。PaLI 模型在 100 多种语言上进行了预训练，并在各种视觉、语言和视觉-语言任务上取得了 SOTA 结果。

X-FM模型：

现有模型可以跨模态工作，但其性能无法与单个类型的基础模型相比。为了解决这个问题，Zhang 等人提出了一种名为 X-FM 的新基础模型和一种新的训练机制。X-FM 架构由三个模块化编码器组成，包括语言编码器、视觉编码器和融合编码器。语言编码器和视觉编码器分别由类似 BERT和 ViT的transformer层以及后置层和前置规范堆叠而成。在融合编码器的自我关注子层中，查询来自语言，键和值来自视觉。

所提出的 X-FM 学习方法结合了单模态和多模态目标以及两种新技术来训练编码器。使用遮蔽语言建模（MLM）和图像-文本对比学习（ITC）训练编码器，使用遮蔽图像建模（MIM）和ITC训练视觉编码器，使用ITM、图像条件遮蔽语言建模（IMLM）和边界框预测（BBP）训练融合编码器。第一种新的训练技术是在学习语言编码器时停止视觉-语言的梯度，这样，语言编码器就从融合中分离出来，通过 MLM 和 ITC 训练语言建模和语言-视觉对齐。第二种新技术是使用遮蔽图像训练视觉编码器，通过使用 MSE 损失最小化遮蔽和未遮蔽输出之间的差异。这样，视觉编码器就能根据跨模态和单模态目标进行训练。这种 MIM 训练既节省资源，又方便快捷，可增强视觉编码器和融合编码器的互操作性。X-FM 在语言、视觉和语言-视觉任务等 22 项任务上的表现优于其他通用基础模型。

具有理解和生成能力的VLP—BLIP模型：

Li 等人认为，以往的研究依赖于大规模的噪声图像-文本数据集，这是一种次优方法。他们引入了 BLIP 框架，该框架有效利用图像-文本数据集，并采用了新的架构，因此具有理解和生成能力。首先，他们提出了一个可生成合成字幕的字幕器和一个可过滤嘈杂字幕的过滤器，这样就可以经济高效地合成和过滤嘈杂字幕。其次，BLIP 有一个多模态混合编码器-解码器（MED）架构，该架构由图像和文本的单模态编码器、基于图像的文本编码器和基于图像的文本解码器组成。该模型根据两个基于理解的目标（即图像-文本对比、图像-文本匹配）和一个生成目标（即语言建模）进行训练。该框架在各种任务中都取得了显著的改进和最先进的性能。

高效利用预训练模型：

•Efficient Utilization of Pre-Trained Models:

介绍一些有效可实现的VLP：

BLIP 和其他类似模型的训练成本过高，因为它们需要大规模、端到端的图像-文本训练，而且往往是从零开始。在此，我们将介绍一些旨在有效利用预训练视觉和语言模型来进行视觉语言建模的方法。

BLIP-2模型:

Li 等人提出了 BLIP-2，这是一种在图像标题数据集上对预训练和冻结的单模态文本和图像编码器进行高效计算对齐的方法。BLIP-2 通过使用查询transformer，弥补了冻结的单模态编码器的模态差距。通过使用图像-文本对比学习、图像-基础文本生成和图像-文本匹配损失，对Q-former的参数进行训练，以对齐两种模态。该框架计算效率高，可利用大量预训练的单模态模型。

觉语言指令调整框架—InstructBLIP模型：

Dai 等人认为，仅在图像标题上对模型进行对齐预训练无法实现更广泛的泛化。他们提出的 InstructBLIP 是一种视觉语言指令调整框架，可使通用基础模型通过统一的语言界面解决多模态任务。与 BLIP- 2类似，他们提出的架构由视觉编码器、Q-Former 和 LLM 组成。与 BLIP- 2 不同的是，他们提出了指令感知视觉特征提取。具体来说，Q-former 在提取编码图像的同时也提取指令嵌入。这样，Q-Former 就能提取与指令相关的视觉特征。与 BLIP-2 一样，他们的模型分两个阶段进行训练：首先在图像文本对上训练 Q-former，然后在 LLM 和视觉编码器都保持冻结的情况下进行指令调整。为了训练该模型执行多模态任务，作者将一套 26 个数据集按照设定模板转换成指令调整格式。InstructBLIP 在各种视觉语言任务中都取得了最先进的zero-shot性能。

VPGTrans模型:

大多数多模态模型都在 LLM 的输入中添加了视觉编码器（视觉提示生成器或 VPG）和投影层，以实现感知。然而，训练这些视觉组件的计算成本很高。Zhang 等人提出了 VPGTrans，这是一种在 LLM 之间转移视觉编码器的高效方法。为此，他们进行了广泛的实验研究，以了解如何在不同大小和类型的 LLM 之间转移 VPG。在探索性分析的基础上，他们提出了分两个阶段进行 VPG 转移的策略。在第一阶段，源 LLM 中训练有素的 VPG 被冻结，投影模块在目标 LLM 上进行微调。在第二阶段，VPG 和投影层都使用目标 LLM 进行训练。他们在不同规模和类型的 LLM 上取得的经验结果表明，只需大幅减少训练数据和计算资源，就能实现性能转移。

TaCA模型：

Zhang 等人提出了一个高效的框架，用于将旧的基础模型升级到新的任务。为此，他们提出了一个名为 TaCA（任务不可知兼容适配器）的适配器，这是一个小型模块，可通过新旧编码器特征之间的蒸馏损失和跨模态对比损失来调整新旧编码器的表征。这样就形成了一个框架，可以在不需要重新训练的情况下升级这些模型的模块。

3.3.2 Foundational Models for Visual Grounding Tasks（视觉定位任务的基础模型）

介绍视觉定位任务相关模型:

在本节中，我们将介绍一些旨在利用对比、生成和其他目标来解决视觉定位任务的方法。

ViLD模型:

开放词汇对象检测器很难训练，因为数据要求与类别数量成比例。另一方面，在网络规模的图像-文本对上训练的视觉语言模型在开放词汇分类方面的表现令人印象深刻。Gu 等人提出了一种高效的两阶段开放词汇对象检测方法，从预先训练好的单词分类模型中提炼知识。提出的 ViLD（视觉语言提炼）方法由一个区域建议网络（RPN）和一个类似 CLIP 的预训练视觉语言模型组成。首先，对 Mask-RCNN进行修改，以输出与类别无关的对象建议和相应的嵌入。其次，利用预训练视觉语言模型的视觉头提取嵌入，然后利用这些嵌入将知识提炼到对象检测器中。第三，用视觉语言模型的预训练文本编码器代替分类器，为所有类别生成文本嵌入。与 CLIP 类似，我们也采用了交叉熵损失法。在推理过程中，还会计算新类别的文本嵌入，并根据与相应文本嵌入的最高相似度对每个区域进行分类。与有监督的最先进的开放词汇方法相比，ViLD 有着显著的改进。

图像理解和定位任务—FIBER模型：

大多数视觉语言基础模型要么适用于图像级理解任务（如分类），要么适用于区域级理解任务（如物体检测）。 Dou 等人在 FIBER 中提出了两个新想法，使视觉语言模型同时适用于这两种任务。具体来说，他们建议在视觉和语言编码器中插入交叉注意层，以进行对齐。此外，他们还提出了一个从粗到细的两阶段训练管道。在这一流程中，首先使用粗粒度数据集训练模型，如图像-文本匹配、遮蔽语言建模和图像-文本对比损失。在细粒度训练过程中，粗粒度预训练模型在初始化时使用，并通过高分辨率图像、边界框损失、词区对齐等进行训练。FIBER 可以处理各种图像理解和定位任务，并在这些任务中不断改进强大的基线。

用物体检测方法—UniDetector模型：

Wang 等人提出了一种通用物体检测方法，旨在检测开放世界中的新类别。UniDetector 方法旨在解决通用对象检测的两个主要问题：在异构对象检测数据集上的训练和新类别识别。为此，他们提出了通用物体检测的三阶段训练方法。首先，RegionCLIPlike 预训练方法适用于调整视觉和文本编码器。同样，将基于模板的类别文本输入语言编码器，并进行视觉语言训练。最后，在推理过程中，应用概率校准来改进新类别检测。图 9 是 UniDetector 的概览。UniDetector 在大词汇量物体检测方面击败了最先进的有监督模型，而无需在训练数据上进行训练，并为封闭词汇量物体检测设定了新的 SOTA。
在这里插入图片描述

XDecoder模型：

不同的视觉方法在不同的粒度级别上运行，如图像级别、物体级别和像素级别。Zou 等人认为，在所有三个层次上运行的方法可以利用这些任务的协同作用，并提出了 XDecoder，它将任务的所有层次都编入一个通用解码程序。X-Decoder 建立在基于 Mask2Former的视觉骨干之上。解码器采用视觉编码器提取的多尺度图像特征和两组查询：文本编码器编码的文本查询和旨在解码分割掩码的通用非语义查询。解码器有两种不同类型的输出：像素级掩码和标记级语义。 不同的查询和输出类型组合可促进不同的任务。该架构在全景分割、指代分割和图像-文本配对数据集上进行了端到端训练，并带有特定任务的语义损失和基于掩码的损失。X 解码器在广泛的分割任务和视觉语言任务中表现出很强的零点和特定任务可转移性。

Glipv2模型：

Zhang 等人提出将视觉语言基础作为定位和理解任务的元能力。为此，他们提出了一种新的临时区域-单词对比损失，利用不同示例中的否定短语作为潜在否定。在图像-文本和检测数据集上，使用他们提出的损失、接地损失和掩蔽语言建模损失，训练了一个由视觉和文本编码器以及融合解码器组成的通用模型。实验结果表明，这两项任务可以相互受益。

4 CONVERSATIONAL VISION-LANGUAGE MODELS(对话式视觉语言模型)

介绍会话式VLM：

大语言模型（LLMs）在理解、推理和进行类人对话方面的表现令人印象深刻，在此之后，又有一些研究将视觉模式纳入其中。对话式 VLM 是文本提示模型的一个子类，但它可以根据多模态输入进行类人对话。在本节中，我们将回顾为创建会话式 VLM 所做的努力。

GPT4模型:

OpenAI 开发了首个视觉语言 GPT4 模型，它可以进行多模态对话，并能描述复杂的图像和解决复杂的现实世界问题。出于 “竞争态势和道德考虑”，他们决定不将该模型开源，而是通过付费墙提供 API 访问。该模型基于基于Transformer的架构，经过预先训练，可使用公共和私有数据集预测下一个单词标记。然后，GPT4 利用 “人类反馈强化学习”（RLHF）进行微调。GPT4 在一系列传统和现实世界的 NLP、视觉和视觉语言任务中表现出色。GPT4 在 HumanEval 中表现优异，在为人类设计的专业和学术考试中的表现达到了人类水平，在传统 NLP 任务中的表现优于之前的 SOTA 语言模型，甚至在跨语言翻译的 MMLU 数据集上也表现出色，并大大提高了模型遵循人类意图的能力。GPT4 在视觉任务和描述错综复杂的场景方面也表现出色，图 10 就是一个例子。

在这里插入图片描述

miniGPT4模型：

GPT4具有显著的新兴特性，但其背后的模型是闭源的，甚至其架构细节也不为人知。Zhu 等人旨在揭开这一谜团，并假设这些模型利用了大型语言模型。为此，他们提出了一个名为 miniGPT4 的 GPT4 开源版本，该版本由一个名为 Vicuna 的预训练大型语言模型（LLM）和一个由 ViT-G 和 Q-Former 组成的视觉组件构成。 MiniGPT-4 在视觉编码器上添加了一个线性投影层，并冻结了所有其他参数。为了使视觉特征与 LLM 保持一致，作者提出了一种两阶段训练-调整方案。首先，MiniGPT-4 是在由 Conceptual Captions、SBU 和 LAION 组成的大型多模态示例集上进行训练的；其次，为了提高自然度和可用性，MiniGPT- 4 在高质量的说明数据集以及相应的图像和文本对上进行了微调。MiniGPT- 4 展示了 GPT4 的几个有趣特性，如生成复杂的图像描述、根据草图创建网站和解释视觉场景（见图 11）。
在这里插入图片描述

Video-ChatGPT模型：

Maaz 等人提出了 Video-ChatGPT，这是一种将视频表示与 Vicuna LLM相结合以实现视频交互的模型。他们的模型由一个用于语言编码的预训练 Vicuna LLM 和一个用 LLaVA 中的视觉指令预训练的 CLIP 视觉编码器组成。为使其与视频兼容，帧级内嵌会沿着时间和空间维度进行平均池化，然后进行串联。这些串联特征被送入一个线性层，该层将其转换为 LLM。该模型使用自动回归训练目标对视频-文本对进行指令调整。为了实现大规模的指令微调，还利用人工注释和半自动注释开发了 100,000 个视频-文本数据。

XrayGPT模型：

Thawkar 等人提出了一种能够分析和回答有关 X 射线照片的开放式问题的模型。他们提出的模型 XrayGPT 由作为文本编码器的 Vicuna LLM 和作为图像编码器的 MedClip 组成。多模态对齐是通过在作者策划的大型放射学特定数据上更新单个线性投影层来实现的。由此产生的开源模型显示出了令人印象深刻的能力，可以就一张放射照片进行对话。

介绍：指令调整扩展到视觉语言模型：

指令调整在 LLMs 遵循指令和解决各种任务的过程中发挥了重要作用。在此，我们将介绍一些旨在将这种行为扩展到视觉语言模型的方法。

LLaVA 模型：

受到 LLMs 和闭源视觉语言模型惊人的指令跟随能力的启发，Liu 等人提出了一个名为 LLaVA 的开源视觉指令调整框架和模型。为此，他们做出了两大贡献。首先，他们提出了一种经济有效的方法来整理多模式教学数据。该方法利用 ChatGPT和 GPT4进行数据整理。这些数据包括对话、视觉输入的详细描述和复杂推理。其次，他们开发了一个大型多模态模型，该模型利用了一个大型预训练语言模型（LLaMA）和 CLIP 的视觉编码器（ViT）。视觉编码器将输入图像转换为特征，并将其送入线性投影层。该层将这些特征转换为与 LLM 兼容的空间。然后采用两阶段策略对该模型进行训练，首先训练视觉语言对齐，然后只更新投影层的参数。在第二阶段，LLM 和投影层参数将在策划好的数据集上进行端到端的微调。LLaVA 是第一种遵循视觉指令的方法，表现出卓越的性能，甚至可以解释复杂的视觉场景。同样，Zhang 等人也提出了一种视觉调整数据集。

LLaMA-Adapter 模型：

Zhang 等人提出的 LLaMA-Adapter 是一种将 LLaMA 模型转化为指令跟踪方法的高效方法。LLaMA-Adapter 主要用于基于文本的指令微调，但也结合了视觉知识。LLaMA-Adapter 背后的主要理念是在早期转换器层的输入标记中添加一组可学习的适应性提示作为前缀。LLaMA-Adapter 还能使用基于 CLIP的图像编码器将输入图像转换为视觉标记，从而处理输入图像。这些可调整的视觉提示也被纳入 LLaMA，用于视觉语言任务。LLaMA 主要用于语言，但作者也展示了它在名为 ScienceQA 的大规模多模态数据集上的卓越性能。

LLaMA-Adapter V2模型：

由于缺乏指令后续数据集，LLaMAAdapter只能用于传统的视觉语言任务。Gao 等人设计了一种参数效率高的视觉指令，在语言视觉任务上显示出更好的性能，并能进行多运行对话。 LLaMA-Adapter V2 为此引入了以下改进。首先，作者引入了视觉知识的早期融合，并为不同的转换器层添加了可适应的标记，从而避免了融合。其次，他们在图像字幕和指令跟随数据的不同参数上引入了视觉语言和纯语言训练。第三，在 LLM 中引入了更多可学习参数，包括重新训练归一化层，以及为变压器的每个线性层引入新的偏置和比例因子。最后，为了提高图像理解能力，如图 12 所示，引入了视觉专家，将其专业知识作为上下文添加到图像中。LLaMA 适配器 V2 增强了 LLaMA 的指令跟踪能力，在传统的视觉语言任务中表现更好，与 V1 相比，它在视觉指令跟踪方面更胜一筹。
在这里插入图片描述

讨论大型视觉语言模型的扩展和应用：

最后，我们将简要讨论大型视觉语言模型的扩展和应用。上述会话式 VLM 通常不擅长视觉基础任务，只能对整体图像进行推理。与基于对比学习框架的视觉基础研究类似，最近的研究也在尝试进行视觉基础对话，例如回答有关特定对象的问题。Wu 等人、Zhu 等人提出了将视觉输入纳入 ChatGPT 的方法。一些作品还引入了结合编程的方法。一些研究还扩展了 ChatGPT 和其他 LLM，使其适用于各种应用，如机器人学和多种维度。

5 VISUALLY PROMPTED MODELS（视觉提示模型）

介绍非文本提示（视觉提示）的视觉基础模型：

在本节中，我们将讨论可由非文本提示触发并为各种视觉任务设计的基础模型。在第 5.1 节中，我们将讨论图像分割的基础模型：CLIPSeg 、SegGPT、SAM和 SEEM。这些模型可以使用不同的提示类型，如文本、点、边界框，甚至是所需区域的Mask，以获得目标分割。像 SAM这样的视觉基础模型是在包含 10 亿多个掩膜和 1100 万张图像的大型数据集上训练出来的。在其他领域，如医学图像理解，可能没有这种规模的大规模数据集。

随后，我们将讨论如何将 SAM 有效地应用于其他领域，如医疗、跟踪、遥感和字幕。此外，SAM 等模型基于高复杂度的视觉Transformer架构，并在高分辨率输入的基础上进行训练，因此对边缘设备不太友好。接下来，我们将讨论如何将这些模型有效地应用于移动设备 。在第 5.2 节中，我们将介绍通用模型，它们可以同时执行不同的任务，甚至可以在有提示和极少特定任务示例的情况下适应新任务（又称情境学习）。

5.1 Foundational Models for Segmentation(分割任务的基础模型)

分割（Segmentation）是指在图像中将像素分组为有意义的概念，并进行逐像素的对象识别。根据像素如何分组，分割可以分为全景、实例和语义分割等不同类型。现有的分割模型都是根据分割类型或数据集进行专门设计的。基础分割模型的目标是开发出可普遍适用于各种分割任务的模型。

CLIPSeg模型：

如果不在相关数据集上进行再训练，传统的分割模型无法泛化到新的类别或纳入新的查询。CLIPSeg利用 CLIP的泛化能力来完成零次和一次分割任务。他们提出的 CLIPSeg 模型通过在文本-视觉联合 CLIP 嵌入上调节基于transformer解码器来实现这一功能。CLIPSeg 由基于 CLIP 的图像和文本编码器以及基于 U-net启发的跳转连接的transformer解码器组成。视觉和文本查询通过相关的 CLIP 编码器获得嵌入，然后输入 CLIPSeg 解码器。通过这种方式，可以使用 CLIP 通过文本或图像提示目标分割。因此，CLIPSeg 可以在测试时根据任意提示生成图像分割。

分割任务多样化：

Diversifying Segmentation Tasks:

SegGPT模型：

分割任务可应用于各种数据集，包括部件、语义、实例、全景、人物、医疗和航空图像。在此，我们将介绍几种选定的方法。SegGPT提供了一种上下文学习范例，旨在针对这些不同的分割任务，使用可通用的训练方案训练一个基础模型。我们面临的挑战是如何在单一训练框架中适应不同的分割任务和数据集。SegGPT 利用上下文学习框架，将不同类型的分割数据映射到相同格式的图像中（每个数据样本的随机颜色映射），从而实现了这一目标。其目的是根据上下文为适当的区域（如类、对象实例、部件等）着色。经过训练后，SegGPT 模型可以执行few-shot语义分割、视频对象分割、语义分割和全景分割，无需对下游任务进行微调。

SAM模型：

SAM是一个zero-shot分割模型，它不依赖于 CLIP，而是在 11 亿个掩码和仅 1100 万张图像上从头开始训练。给定图像和视觉提示（方框、点、文本或掩码），指定图像中要分割的内容，SAM 使用图像和提示编码器分别对图像和提示嵌入进行编码，然后将其组合到可预测分割掩码的轻量级掩码解码器中（图 13）。即使给定的提示模棱两可，SAM 也能训练输出有效的分割掩码，例如，给定一个穿衬衫的人的点提示，模型必须分割衬衫或穿衬衫的人。SAM 在超过 10 亿个掩码上进行了训练，并采用了尊重隐私的图像和循环建模数据集注释设置。数据注释分为三个阶段：辅助手动、半自动和全自动。在第一阶段，SAM 协助注释者注释面具。通过向 SAM 提示可能的对象位置，SAM 可以生成对象子集的遮罩，而注释者则专注于注释其余的对象。最后一步是向 SAM 提示前景点的规则网格，平均每幅图像可生成 100 个高质量的遮罩。
在这里插入图片描述

SAM提示机制多样化

Diversifying SAM’s Prompting Mechanism:

SEEM模型：

受 ChatGPT 等交互式 LLM 的成功启发，Zou 等人认为，人工智能与人类的交互非常重要，但在视觉领域还没有得到很好的探索。SAM为此提供了数量有限的选项，但仍然缺乏一个基于人类对话的更全面的交互系统，而且它也不支持高级语义任务。因此，作者的目标是设计一个 “通用界面，用于在任何地方通过多模态提示对所有内容进行分割”，又称 SEEM。它可以接受多种类型的提示，包括点、掩码、文本、方框和另一幅图像的参考区域，因此具有很强的可组合性。 SEEM 由文本和图像编码器以及用于此类提示的视觉采样器组成。这些编码输入被投射到一个图像-文本联合表征空间，然后被输送到一个解码器，该解码器输出类和掩码嵌入。SEEM 具有很强的泛化能力，运行效率高。它还具有更强的交互性，因为它可以接受五种不同类型的提示。

许多视觉任务可能没有大规模数据集来训练特定任务的大规模模型。接下来，我们将在第 5.1.4 至 5.1.5 节中讨论如何针对各种视觉任务调整基础模型 SAM。图 14 展示了 SAM 的各种适应性概述。
在这里插入图片描述

5.1.1 SAM for Medical Segmentation （用于医疗分割的 SAM）

医学图像分割是医学图像分析的基础，它可以识别和标记不同医学图像中的感兴趣区域（ROI），包括器官、病变和组织。SAM是在自然图像上训练出来的，很难推广到医学图像分割上。在本节中，我们将讨论有效调整 SAM 以适应医学图像数据集的策略。

通过微调进行调整：

Adapting by Fine-Tuning:

MedSAM模型：

文献中的作者将 SAM 方法扩展到医学图像，开发了 MedSAM。他们创建了一个大规模医疗分割数据集，其中包含 33 项分割任务，涉及 11 种不同数据模式的 20 多万个掩膜。然后，他们在收集到的数据集上对 SAM 进行了微调，以实现通用的医学图像分割。在他们的微调方法中，图像和提示编码器被冻结，而 SAM 解码器只在医疗数据集上进行训练。在 21 项三维分割任务和 9 项二维分割任务中，MedSAM 的表现优于 SAM。

通过辅助提示编码器进行调整：

Adapting through Auxuliary Prompt Encoder:

AutoSAM模型：

文献的作者提出了一种针对医疗数据集 SAM 提示的全自动解决方案 AutoSAM，并提出了一种辅助提示编码器。AutoSAM辅助提示编码器网络根据输入图像生成 SAM 的替代提示。与 SAM 提供的提示编码器不同，AutoSAM 的编码器将图像本身作为输入，而不是边界框、点或掩码。在训练过程中，二进制交叉熵损失和骰子损失用于将梯度从 SAM 网络传播到提示编码器网络。与 SAM 解码器相比，AutoSAM 编码器网络使用 Harmonic DenseNet作为骨干，可训练参数较少。通过保持主 SAM 网络的完整性，AutoSAM 可以很容易地实现，而且不需要根据适当的训练计划来确定 SAM 的微调。

通过适配器进行调整：

Adapting Through Adapters:

不同的多模态图像会带来不同的分割目标，因此在眼科领域分割多个目标可能具有挑战性，例如根据彩色眼底图像分割血管，或根据光学相干断层成像分割视网膜层。虽然 SAM 可以从 OCTA 图像中定位多条血管，但无法从彩色眼底图像中分割血管，因为血管或病变可能不够明显，无法识别。在使用新的可学习提示层进行单次微调后，SAM 可扩展到准确分割血管、病变或视网膜层。除了能在不同模态图像中自动学习目标外，所提出的可学习提示层还具有数据集之间的泛化能力。

3DSAM-adapter模型：

由于 SAM 最初是为二维自然图像设计的，因此无法从体积医学数据中有效提取三维空间信息。在 3DSAM-adapter Gong 等人的研究中，为输入层的图像编码器设计了一种修改方案，使原来的二维变换器能够适应体积输入。该方案确保了预训练权重的最大可重用性，同时还允许它们通过参数微调捕捉某些三维空间模式。其次，在提示编码器层面，我们提出了一种位置编码的替代方法，即引入从图像嵌入中提取的视觉采样器作为点提示的表示。此外，还采用了一组全局查询来过滤噪声提示。由于图像标记尺寸会随着维度的增加而增大，因此这一策略可以缓解由于图像标记尺寸大幅增加而导致的过度平滑问题。它还增强了模型对不准确提示的适应能力。因此，尽管自然数据和医学数据之间存在领域差距，而且二维和三维之间的空间排列也不尽相同，但最初在自然图像上训练的变换器只需稍加调整，就能捕捉到体积医学图像中固有的空间模式。

Medical SAM Adapter:

在医学 SAM 适配器中，为 SAM 提出了一种通用的医学图像分割适配器，该适配器的设计包含了特定领域的知识，如医学数据的高维度（3D），以及独特的视觉提示，如点击和 BBoxes。将适配器模块插入原始基本模型，然后只调整适配器参数，而冻结预训练参数。经过培训后，医疗 SAM 适配器（MSA）在 19 项医疗图像分割任务中表现出了卓越的性能。

通过修改 SAM 的解码器进行调整:

Adapting by Modifying SAM’s Decoder:

DeSAM模型：

通过 SAM，可以通过两种方式实现自动分割。第一种方法是使用网格点作为提示，第二种方法是使用与图像大小相同的方框作为提示。尽管进行了全面的微调，全自动 SAM 仍倾向于生成大量假阳性掩码，其性能远远达不到临床医生的预期。在 DeSAM中，作者认为在 SAM 掩码解码器的交叉注意transformer层中，图像嵌入和提示标记会相互影响，从而导致高度依赖的最终输出掩码。因此，即使经过微调，该模型对不正确的提示仍然很敏感。DeSAM 将 SAM 的掩码解码器分为两个子任务：1) 与提示相关的 IoU 回归，以及 2) 与提示无关的掩码学习。提示相关 IoU 模块根据给定的提示预测 IoU 分数，并生成掩码嵌入。提示不变掩码模块（PIMM）结合图像编码器的嵌入和 PRIM 的掩码嵌入生成掩码。DeSAM 可以最大限度地降低 SAM 在 "分割一切 "模式下因错误提示而造成的性能下降。

MedLAM模型：

作为医学注释器的 SAM：文辉等人提出了一种使用 SAM 对医学数据集进行标注的方法，并介绍了一种少量定位框架，该框架是[148]的扩展，能够定位任何目标解剖部位。MedLAM 利用了一个包含 14,012 个 CT 扫描的综合数据集，并结合了两个自监督任务：相对距离回归 (RDR) 和多尺度相似性 (MSS)。MedLAM 只需要在几张模板图像上标注六个极值点，从而大大减轻了标注负担。这样，MedLAM就能为每个图像切片生成一个二维边界框，SAM就能有效地利用该边界框完成后续的分割任务。MedLAM对包含38个器官的两个三维数据集进行了评估，结果表明MedLSAM的性能可与SAM及其医学适配器相媲美，同时最大限度地减少了对整个数据集极端点的标注需求。

SAMM模型：

同样，Segment Any Medical Model（SAMM）也是一款医学影像分割工具，它将 3D Slicer 和 SAM 结合在一起，协助 SAM 的开发、评估和应用。3D Slicer [81] 是一款开源应用程序，能够读写多种文件格式、处理二维坐标系，并提供一致的用户界面和工具，以促进医学影像分析。分段可通过提示自动进行，提示可自动应用于后续切片。SAM 与 3D Slicer 的集成使研究人员能够利用先进的基础模型对医学影像进行分割。

5.1.2 SAM for Tracking（用于跟踪的 SAM）

最重要的计算机视觉任务之一是跟踪一般场景中的任意物体，并将视频中的感兴趣区域与背景区分开来（也称为视频物体分割或 VOS）。

分割和跟踪视频中的任何物体—TAM模型/SAM-Track模型：

边界框或分割掩码通常用于初始化跟踪器和分割器，这些跟踪器和分割器是在带有人工注释的大型数据集上训练出来的。在当前的初始化设置（尤其是半监督 VOS）下，还需要一个特定对象掩码的基本事实来初始化模型。SAM 是一种用于分割的基础模型，可用于视频中的跨帧分割，但由于缺乏时间一致性，因此效果不佳。Track Anything (TAM) 建议使用 SAM 和现成的跟踪器 XMem 来分割和跟踪视频中的任何物体。**用户只需点击一个物体，即可初始化 SAM 并预测掩码。然后，XMem 根据时空对应关系，使用 SAM 在视频中提供的初始掩码预测对物体进行跟踪。用户可以暂停跟踪过程，并立即纠正任何错误。**与此类似，SAM-Track 将 DeAOT与 SAM 结合使用。

zero-shot场景SAM与视频跟踪效果并不好

TAM和 SAM-Track表现良好，但它们在zero-shot情景下并没有有效保持SAM的原始性能，这更具挑战性。类似地，对于视频对象分割（VOS）和视频实例分割（VIS）的半监督方法[45,47]在应用到未见数据时存在性能差距，特别是在利用zero-shot模型时，这些模型用于分割训练集之外的对象类别。

为了解决上述问题：

SAM-PT模型：

为了解决这些问题，SAM-PT提出将 SAM 稀疏点跟踪与视频分割相结合，因此只需在第一帧中进行稀疏点标注即可表示目标对象。开放世界的 UVO 基准显示了它在泛化未见物体方面的优势。利用最先进的点跟踪器（如 PIPS ），SAM-PT 可为视频分割提供稀疏点轨迹预测。SAM-PT 表明，K-Medoids 聚类中心最适合使用掩码标签作为初始跟踪点来启动 SAM。此外，为了将目标物体与背景区分开来，SAM-PT 还会同时追踪正点和负点。

SAM-DA模型：

SAM-DA 是另一种利用 SAM 自动分割能力进行跟踪的方法。具体来说，它利用 SAM 自动分割功能，从每幅夜间图像中自动确定大量高质量的目标域训练样本，用于跟踪夜间无人机。

5.1.3 SAM for Remote Sensing(用于遥感的 SAM)

SAM主要以点、框和粗粒度遮罩为指导，由于其交互性，在很大程度上依赖于人工指导。因此，这使得 SAM 在全自动理解遥感图像方面效果不佳。SAM 的结果在很大程度上取决于用于分割遥感图像目标的提示的类型、位置和数量。为了达到理想的效果，通常需要对人工提示进行改进。因此，SAM 在用于遥感图像分割时有很大的局限性。RsPrompter将语义分类信息与 SAM 结合起来，用于遥感图像的自动实例分割。RsPrompter 通过学习为 SAM 输入生成适当的提示。它通过分析编码器的中间层，生成包含语义类别信息的提示嵌入，这些嵌入可被视为点嵌入或盒嵌入。

5.1.4 SAM for Captioning(用于字幕的 SAM)

控制图像字幕化是一个新兴的多模态话题，它利用自然语言针对人类的目标对图像进行解释，例如检查图像的某些区域或以特定的方式描述图像。然而，由于缺乏完善的多模态数据标注，此类交互式图像字幕系统的可扩展性和可用性受到很大限制。Caption AnyThing（CAT）是一种zero-shot图像字幕模型，它利用了预先训练好的图像字幕，并带有segment anything（SAM）和大型语言模型 ChatGPT。用户可以通过视觉提示来定义视觉控制，然后使用 SAM 将其转换为掩码，以选择感兴趣的区域。根据原始图像和所提供的掩码，图像标题器会预测原始标题。然后，文本细化器（如 ChatGPT 等大型语言模型）会修改用户定义的语言控件，使语言风格符合用户的偏好，从而优化原始描述。

5.1.5 SAM for Mobile Applications（移动应用程序的 SAM）

由于 SAM 具有令人印象深刻的零镜头传输性能，而且可以轻松与其他模型集成，用于图像编辑等高级视觉应用，因此受到了广泛关注。通常需要在资源有限的边缘设备（如移动应用程序）上运行此类用例。在本节中，我们将讨论如何在尽量不影响 SAM 模型通用性的前提下，使其成为移动友好型模型。

FasterSAM模型：

然而，使用 ViT-L 或 ViT-B 作为图像编码器来训练一个新的 SAM 可能需要花费数天时间和 128 个 GPU。这种资源密集型的重新训练对于重现或改进其结果来说是一个不小的负担。造成这种优化困难的一个主要原因是掩码解码器和图像编码器是耦合在一起的。在 FasterSAM中，重量级的图像编码器被轻量级的图像编码器所取代，从而使 SAM 更便于移动。第一步是将默认图像编码器 ViTH 中的知识提炼为一个微小的版本 ViT。

MobileSAM模型：

之后，FasterSAM 将原始 SAM 的掩码解码器与提炼后的图像编码器更紧密地对齐。MobileSAM 的体积是原始 SAM 的 60 多倍，可以在不到一天的时间内在单个 GPU 上完成训练。同样，Fast Segment Anything [347] 也试图将类似 SAM 的功能引入移动应用。它主张使用 CNN 而不是视觉变换器进行图像编码，并将分割任何东西的管道分为两个阶段。具体来说，该方法基于 YOLOv8-seg ，这是一种使用 YOLACT方法进行实例分割的检测器。然后，它在第二阶段输出与提示相对应的感兴趣区域。与 SAM 相比，它的性能相当，但对计算和资源的需求大大降低，因此只需使用 SA-1B 数据集的 2%（1/50）就能实现实时应用。

RefSAM模型：

RefSAM也是一种基于 SAM 的高效端到端框架，适用于参考视频对象分割（RVOS）任务，它基于强大的基础模型 SAM，在视频中执行精确的目标对象分割。作者采用了一种高效、轻量级的 CrossModal MLP，可将引用表达的文本特征转换为密集和稀疏的特征表示。此外，作者还提出了一种参数高效的策略，可将视觉特征和语言特征统一起来。

5.2 Generalist Models (通用模型)

利用上下文学习，只需少量提示和示例，模型就能快速适应各种任务。计算机视觉上下文学习的难点在于不同任务的输出表征差异很大（需要不同的损失函数和架构），因此目前还不清楚如何为视觉模型定义通用的任务提示或指令，以便为领域外的任务重新配置模型。Painter是一种通用模型，它可以同时执行不同的任务，甚至可以根据提示和极少的特定任务示例适应新任务。给定某个任务的输入和输出图像后，输出图像的像素会被屏蔽。然后，Painter 模型的目标是对遮蔽的输出图像进行润色。这种简单的训练目标可以将多项视觉任务统一起来（无需修改模型架构或损失函数），包括深度估算、人类关键点检测、语义分割、实例分割、图像去噪、图像去污和图像增强。训练完成后，Painter 可以使用来自同一任务的输入/输出配对图像作为输入条件，确定推理过程中要执行的任务。

VisionLLM是另一种通用模型，它将视觉和语言模式结合在一起以解决开放式任务。给定一幅图像后，VisionLLM利用视觉模型学习图像特征；这些图像特征连同语言指令（如 “详细描述图像”）一起通过语言引导的图像标记器。图像标记器的输出与语言指令一起提供给基于开放式 LLM 的任务解码器，该解码器旨在根据语言指令协调各种任务。Prismer 也是一个视觉语言模型，它利用在语义分割、物体、文本和边缘检测、表面法线和深度估计等方面预先训练的各种领域专家，来执行多种推理任务，如图像字幕和视觉问题解答。

6 HETEROGENEOUS MODALITIES BASED MODELSI（基于异构模式的模型）

在本节中，我们将讨论将多种配对模态（如图像-文本、视频-音频或图像-深度等）结合起来以学习有意义表征的基础模型。

将 CLIP 与异构模式相匹配：

Aligning CLIP with Heterogeneous Modalities:

CLIP2Video模型：

对 CLIP 模型进行了视频扩展。视频和语言理解有两个方面，一是多模态图像-文本训练的空间表示，二是视频帧和视频语言的时间关系。CLIP2Video 将图像-文本 CLIP 模型的空间语义转移到了视频-文本检索问题上，利用提出的时差块（TDB）和时序对齐块（TAB）引入了 CLIP 的时序一致性。它们旨在处理视频帧和视频语言之间的时间关系，通过时差块在序列中添加图像两帧之间的差值来模拟运动变化。时间对齐块通过在同一特征空间中对齐视频和语言，来增强它们之间的相关性。

AudioCLIP模型:

同样，AudioCLIP模型也扩展了 CLIP 模型，使其也能处理音频。因此，AudioCLIP 是一种三模式混合架构，它利用 AudioSet 数据集将 ESResNeXt 音频模型纳入 CLIP 框架。除了现有的文本到图像相似性损失项之外，还引入了新的文本到音频和图像到音频损失项。经过训练，AudioCLIP 能够同时处理所有三种模态和任意一对模态。在环境声音分类任务中，AudioCLIP 的表现优于之前的方法，并将 CLIP 的zero-shot功能扩展到了音频模态。因此，AudioCLIP 能够使用文本、图像和音频或这些模式的任意组合进行跨模式查询。

Image Bind模型:

CLIP2Video 和 AudioCLIP 都对 CLIP 进行了扩展，增加了一种模式，但在实际应用中可能会有多种类型的配对模式。 Image Bind通过学习配对数据模式的通用表示（如（视频、音频）或（图像、深度）），将多种模式包含在内。通过将视觉特征与与之相关的任何感官体验相匹配，图像具有这种 "绑定 "特性，可为学习视觉特征提供多种监督来源。为了更好地进行表征学习，应将不同的传感器对准单一的联合嵌入空间来学习视觉特征。但问题是，用同一组图像获取每种类型和组合的配对数据是不可行的。缺乏所有模态的多模态数据是学习联合嵌入的主要障碍之一。通过使用多种类型的图像配对数据，ImageBind 可以学习单一的共享表示空间，因此它不受所有模态数据集必须相互共现才能进行联合学习的限制。ImageBind 将大规模配对数据（图像、文本）与其他配对数据模式（视频、音频）或（图像、深度）相结合，以开发联合特征表示，从而将其他模式（音频、深度）与文本嵌入对齐。ImageBind 扩展了四种模式的零拍摄功能，包括音频、深度、热和惯性测量单元 (IMU) 读数。

将 LLM 与异构模态相匹配:

MACAWLLM模型：

Aligning LLM with Heterogeneous Modalities: MACAWLLM 是一种经过指令调整的多模态 LLM，它将图像、视频、音频和文本等四种不同的模态整合到一个模型中。它将不同数据模态的特征表示统一到 LLM 的嵌入中，从而使这些特征更接近于大型语言模型的文本表示。 MACAWLLM 使用了一个结合了图像和视频模态的大规模多模态指令数据集进行训练，这为今后这类模型的学习工作提供了便利。MACAW-LLM 由三个模块组成，包括将不同模态（如视觉和音频数据）编码器集成到 MACAW-LLM 中的模态模块（Modality Module）、统一不同模态编码器的对齐模块（Alignment Module）和预训练 LLM 的认知模块（Cognitive Module）。

COSA 模型：

对于视频语言推理而言，时间一致性和语境非常重要。目前的图像-文本基础模型完全是在图像-文本语料库中训练出来的，这些模型对视觉概念和语言之间的语义关联有了全面的了解，但它们缺乏视频所需的时间语境。解决这一问题的办法是在大规模的视频-文本语料库中进行训练，但获得这些语料库的成本很高。COSA建议从图像-文本语料库动态转换为长格式视频段落样本，从而生成视频段落语料库。它在每个训练步骤中从同一批中随机串联一定数量的图像-文本训练样本。对图像和文本进行连接，确保事件和句子明确对应。由于具有更丰富的场景转换、更少的视觉冗余和更精细的标题（按顺序描述每一帧画面），即时串联语料库优于短式视频-文本语料库。COSA 采用简单的架构，在预训练时将合并样本作为输入。除了视觉检索、字幕和问题解答外，该模型还能处理判别和生成任务。

Valley模型：

Valley（具有大型语言模型的视频助理）是另一个能够整合视频、图像和语言感知的多模式框架。Valley 模型中使用了一个简单的投影模块来连接视频、图像和语言模式，并通过指令调整流水线与多语言 LLM 进一步统一。为了获得视频和图像输入的统一视觉编码，Valley 还采用了时空池策略。包括视频问答、长篇描述、偶然关系推理和动作识别在内的各种视频任务都被用来收集指令跟踪数据。然后利用这些数据对指令进行微调，从而获得视频的基础模型。

7 EMBODIED FOUNDATIONAL AGENTS（基础性具身代理）

在大规模文本数据上训练LLMs可能会产生与现实世界相关的表示，但要解决更广泛的基于现实的计算机视觉和机器人问题，将这些表示与真实世界的视觉和物理传感器模式相连接是必不可少的。在本节中，我们将讨论用于机器人操作的基础性具身代理。

用于机器人操纵:

For Robot Manipulation:

Palm-E模型：

Palm-E（见图 15）通过将嵌入式代理的传感器模式的连续输入直接纳入嵌入式语言模型，解决了这一具有挑战性的任务，使语言模型本身能够对顺序决策做出更有依据的推断。基于转换器的 LLM 将图像和状态估计等输入嵌入到与语言标记相同的潜在嵌入中，并以与文本相同的方式进行处理。连续输入通过编码器注入预先训练好的 LLM。这些编码都是通过强制执行自然文本的输出顺序决定来从头到尾进行训练的，这些自然文本可以被所化代理理解。
在这里插入图片描述

ViMA模型：

机器人任务规范的形式多种多样，包括模仿单次演示、遵循语言指令和到达视觉目标。这些不同的任务通常使用不同的模型。ViMA 的研究表明，多模态提示（文字和视觉标记交错）能有效表达各种机器人操作任务，从而通过多模态提示学习机器人操作。ViMA 采用了提出的基于变压器的编码器-解码器网络。VIMA 使用预先训练好的语言模型对文本和视觉提示标记进行编码，并对机器人控制动作进行自动回归解码，从而对每组环境交互的机器人动作进行编码和解码。此外，他们还开发了一个带有多模态提示的新模拟基准，其中包含超过 600K 条专家轨迹，用于模仿学习。他们还为系统性泛化制定了四级评估协议。

针对持续学习者：

For Continual Learners:

MineDojo:

对于这类代理，提供了一个方便的应用程序接口，让用户可以轻松地在 Minecraft 中指定任务规格、更改世界设置、观察任务并采取行动。由自然语言提示的开放式任务数以千计。作为 MineDojo 的一部分，他们从 Minecraft 中收集了大量数据，包括 30K+ 带有时间对齐脚本的 YouTube 视频、6K+ 自由形式的 Wiki 页面和 340K+ 带有多媒体内容的 Reddit 帖子。然后，MineDojo利用这些数据为化身代理设计了一种新颖的学习算法。他们的视频文本模型将自然语言字幕与 MineDojo 中时间对齐的 YouTube 视频关联起来。此外，他们还提出了一种方法，通过使用基于 Minecraft YouTube 视频开发的大型预训练视频语言模型来评估代理。这是对人工评分的补充，而人工评分的成本很高。

VOYAGER :

受人类玩 Minecraft 方式的启发，VOYAGER认为，终身学习代理应该能够执行与人类类似的任务，例如，它应该根据当前的技能水平解决任务，适应环境反馈以完善技能，并积极寻找新任务和探索世界。VOYAGER 是首批由 LLM 支持的体现式终身学习代理之一。它旨在推动探索，磨练各种技能，并在 Minecraft 中不断发现新事物。基于 GPT-4 生成的自动课程，VOYAGER 被设计为解决难度不断增加的任务，以便尽可能多地发现各种新事物。这与新奇搜索类似。当 VOYAGER 存储完成任务的动作程序时，它就会逐步建立起一个技能库。随着时间的推移，VOYAGER 的能力会通过合成更小的程序而不断增强，从而减轻了与其他持续学习方法相关的灾难性遗忘。

导航规划:

For Navigation Planning:

LM-Nav:

使用 LM-Nav，无需事先在目标环境中进行微调，即可得出可执行的计划。 LM-Nav 将预训练的视觉和语言模型与目标条件控制器相结合。为此，我们将一个预训练的导航模型与两个与机器人无关的预训练模型相结合。利用机器人的观察结果，我们使用视觉导航模型 ViNG构建了一个拓扑环境 “心理地图”。然后，LM-Nav 使用大型语言模型 GPT-3，将自由形式的文本指令解码为文本地标。为了在拓扑图中确定这些文字地标，它采用了一种视觉语言模型，如 CLIP，该模型可推断出地标和节点的联合可能性。最后，VNM 使用一种新颖的搜索算法为机器人寻找计划，该算法可最大化概率目标。简而言之，LM-Nav 结合了三个大型预训练模型：自监督机器人控制模型、视觉语言模型和大型语言模型，可在复杂的真实世界环境中提供长距离指令跟踪。
在这里插入图片描述

8 OPEN CHALLENGES & RESEARCH DIRECTIONS(公开挑战与研究方向)

虽然本调查中讨论的各个模式可能都有各自的缺点和公开挑战，但本部分旨在全面概述这些方法（或其子集）所面临的共同挑战。我们还强调了有助于应对这些挑战的研究方向。

多模态开源模型:

Multimodal Open-source Models:

在 NLP 任务中，从 GPT3 到 ChatGPT 的转变表明了指令遵循和基于人类反馈的强化学习的重要性。对于多模态（文本和图像）输入，GPT4 也声称具有类似的能力，可以根据视觉语言输入进行推理和理解。然而，GPT4 是一个闭源模型，迄今为止访问受限，其训练细节也仍然未知。为了弥补这一差距，多模态开源基础模型，如 BLIP2 、GIT 和 Flamingo，可以通过指令跟踪和人类意图对齐进行扩展，从而在多模态空间中具备类似 ChatGPT 的能力。为此，Intruct-BLIP、miniGPT4、LLaVA 和 Video-ChatGPT 等项目已初见成效。然而，如何将 GPT4 的功能与开源公共模型相匹配，仍是多模态基础模型面临的一大挑战。

评估和基准:

Evaluation and Benchmarking:

大规模会话视觉语言模型具有开放性，因此对其进行全面评估极具挑战性。这一挑战与 LLM 的进展相同，但对于视觉输入来说更为严峻，因为可能的任务和推理能力变得多种多样，难以进行广泛而深入的评估。一种量化方法是定义一组涵盖多个推理方面的指令，并将两个相互竞争的聊天机器人 VLM 的响应转发给 GPT4，由 GPT4 按 1 到 10 的等级对其进行评分。这种 "LLM-asa-judge "方法由 Vicuna-Instruction- 80 基准引入，该基准包含 9 个指令类别：通用、知识、数学、反事实、费米、编码、写作、角色扮演、常识。例如，[190] 使用由 GPT4 评分的四项标准（信息正确性、细节定位、上下文理解、时间理解、一致性），对为视频量身定制的 VLM 进行基准测试。然而，使用外部 GPT4 模型作为黄金标准仍然值得商榷，为了解决现有评估措施的局限性，LLM 在基准测试和识别角落案例方面做出了新的努力。这些工作可能会扩展到 VLM，并更加关注 VLM 特有的视觉方面。

幻觉:

Hallucination:

幻觉指的是由大型 VLM/LLM 生成的输出不真实或无意义的现象，通常是基于假设的场景。基础语言和视觉模型，特别是那些基于生成预训练模型的开放式对话模型，有时会编造答案，即使它们在特定情况下在技术上是正确的。这是因为这些模型是在文本和/或图像的海量数据集上训练出来的，而这些数据集往往是有噪声的，它们可能无法区分真假。特别是对于将视觉数据作为输入条件的 VLM，例如基于图像的视觉问题解答，一种形式的幻觉会忽略视觉输入，只能根据文本提示提供答案。举例来说，如果一张图片上有一个绿苹果，而相应的问题是 “这张图片上的苹果是什么颜色的？”，由于过度依赖训练数据而忽略了提示上下文，答案可能是红色的。控制幻觉的一种方法是向会话 LLM 提供明确的指令（或所谓的系统命令），使其根据所提供的上下文提供答案，例如，要求聊天机器人提供患者健康记录中缺失的信息，同时严格基于患者数据中可用的事实。其他缓解幻觉的策略包括思维链提示、自我一致性（投票）和使用知识库进行检索增强生成。

多式联运路线:

Multimodal Alignment:

现有的 VLM 有时也存在视觉-语言（或其他模式）匹配不佳的问题。例如，与视觉提示（点、框或遮罩）相比，Segment anything的文本提示性能较弱。对于异构模态来说，这种对齐可能更具挑战性。ImageBind等方法展示了实现几种模式之间对齐的可行方法，但是，对于具有共享语义空间的更广泛的相关输入，要展示强大的对齐能力仍有很大的空间。例如，当人类看到一种食品的图片时，不仅能识别出该食品的类别，还能记住它的味道、烹饪方法以及食用时每咬一口所产生的脆响。要想建立一个统一的表征空间，提供对我们周围世界的完整理解，针对学习联合嵌入空间的基础模型将是进一步发展的关键。

大型数据和计算需求:

Large Data and Compute Requirements:

训练大规模视觉和语言模型是数据和计算密集型工作。获取大规模的标注数据既昂贵又耗时，特别是对于专业视觉领域或低资源语言。同样，由于涉及的参数较多，推理的成本也很高。这些模型的计算要求限制了它们在许多现实世界应用中的可访问性和可扩展性。例如，需要实时推理能力的应用，或需要部署在边缘和移动设备上的应用，这些设备的计算能力有限，电池使用时间也受到限制。同样，基于视觉提示的模型（如 Segment Anything）也会受益于实时速度，以确保其难易程度。然而，目前具有高性能图像编码器的版本并不能提供实时的整体处理。潴留网络等技术可以集成到 VLM 中，实现高吞吐量处理。

调整调频:

Adaptation of FMs:

基础模型的训练通常需要消耗较长的训练时间和大量的计算资源。因此，基础模型需要适应多个下游任务和应用。如何在不破坏模型所学大量知识的情况下高效地调整基础模型是一个开放性研究课题，近年来已有许多有趣的初步研究报告。由于人们对 LLMs 和 Diffusion 模型非常感兴趣，这种参数高效微调（PEFT）方法主要针对这两类模型进行探索，但也可直接用于调整其他视觉基础模型。一些具有代表性的方法包括低阶适应（Low-rank Adaptation，LoRA）及其变体，如 QLoRA 和 GLoRA、前缀调整、适配器、提示调整。减少计算和内存占用以快速适应文本和视觉提示的基础模型仍是一个开放的研究方向，因为现有方法需要仔细选择超参数（如 LoRA 中的阶数或位置和锚点）、LoRA中的等级或瓶颈适配器的位置和尺寸），并可能导致泛化性能的损失。

易受对抗性攻击的脆弱性:

Vulnerability to Adversarial Attacks:

基金会模型与其他基于神经网络的模型类似，可能会被对抗性攻击所欺骗。这些攻击涉及精心设计的输入，可导致模型产生不正确或有害的输出。然而，对基础模型的对抗性攻击有一些特定的方式，使它们容易出现不想要的行为。举例来说，基于会话 LLM 的模型已被证明容易受到对抗性提示注入的影响，而对抗性提示注入需要对抗者与基于 LLM 的会话代理之间进行直接交互。Greshake 等人Greshake等人的研究表明，在集成了LLM的应用中，即使模型与对手之间不需要直接交互，对手也可以通过间接的提示注入远程毒害对话代理检索到的信息。这就导致了 LLM 和 VLM 的一系列漏洞，包括内容被操纵、欺诈、恶意软件、入侵、个人信息泄露，以及通过语言和可视化提示注入拒绝服务。 Carlini 等人最近指出，基于 NLP 的优化攻击是微弱的，它们在基础模型上的失败不应被视为鲁棒性的证明。他们进一步证明，在会话 VLM 中，可以通过对输入进行敌意扰动来从模型中获得有害响应，从而轻松发起攻击。Maus 等人展示了如何将无意义的文本添加到提示中，以欺骗文本和图像生成模型。为 VLM 的上下文学习提供的示例（输入-输出对）也可以被更改，以欺骗模型。基于视觉提示的模型（如 SAM）也曾因输入和相关提示被破坏而受到攻击。如何强化基础 VLM 以抵御此类攻击，是一个具有重大意义的开放性研究课题。

偏见与公平:

Bias and Fairness:

视觉和语言的基础模型会继承和放大用于训练这些模型的数据中存在的偏差。与种族、代表性不足的群体、少数民族文化和性别有关的偏见、刻板印象和成见会使模型输出有偏差的预测或表现出倾斜的行为。例如，最近的研究显示了 CLIP 模型对红圈的敏感性，只需在人脸周围画一个红圈，就会增加其被错误分类为凶手、嫌疑人或失踪人员的几率。这种行为可能来自于包含新闻媒体实例的数据，这些新闻媒体通常会在广播中将罪犯周围画上红圈。与此同时，人们还开发了新的基准来评估现有 VLM 对某些偏见的处理能力。解决基础人工智能模型中的偏见问题对于确保这些系统的公平性、包容性和道德部署至关重要。

可解释性:

Interpretablity:

基础模型往往难以解释，这就很难理解它们是如何工作的，以及为什么会产生这样的输出。在这个方向上，现有的方法研究了思维链推理，以解释视觉和语言模型产生的输出。此外，还开发了新的基准来评估和训练明确的模型选择，如 ScienceQA 。一个名为 “可视化编程”（Visual Programming）的有趣想法是，使用可解释的神经符号表示法，将复杂的任务分解为更简单的步骤，解释 GPT-3 中特定输出的原理。虽然这些工作很有前景，但也有一些失败的案例，还可以进一步改进，例如，通过允许用户反馈来改进模型生成的解释。

背景了解有限:

Limited Contextual Understanding:

虽然基于转换器的基础模型已经显示出令人印象深刻的语言和视觉理解能力，但它们在处理某些上下文的细微差别时仍有困难。对于这些模型来说，理解讽刺、反讽或其他形式的具象图像和语言输入（如memes）可能具有挑战性，从而导致不准确的解释或反应。虽然纯语言模型在这方面已经做出了初步努力，但大型多模态模型也亟需类似的努力，这仍然是一个未决问题。

缺乏对现实世界的了解:

Lack of Real-world Understanding:

语言和视觉的基础模型缺乏对世界的深刻理解。它们只能生成与训练数据一致的提示条件文本、代码或视觉输出。这种训练的重点是根据之前的序列元素输出下一个序列元素，或学习多模态对齐。然而，这种训练与基于物理现实的人类学习和推理有很大不同。这意味着大型语言和视觉模型可能无法理解其生成的内容的含义，也无法推理基于真实世界的复杂概念。基于基础多模态模型的以自我为中心的感知和具身人工智能代理需要开发世界模型和异构模态的协调，以改进基于物理的推理。在这个方向上，MineDojo、VPT和 Voyager等关于具身基础模型的研究利用 Minecraft 游戏的开放性作为基于 GPT 模型的具身代理的试验平台。然而，将这些代理带到真实世界的任务和复杂环境中是一个具有挑战性的问题，需要进一步开展工作。谷歌的 Palm-E就是朝这个方向迈出的一步，它将 ViTs 与经过语言和感官输入训练的 Palm LLM 模型相结合，让具身代理能够理解指令并采取明智的行动。

9 CONCLUSION

对于开发能够有效感知和推理现实世界的人工智能系统来说，对包括自然语言和视觉在内的多种模式有基本了解的模型至关重要。本调查回顾了视觉和语言基础模型，重点关注其架构类型、训练目标、下游任务适应性及其提示设计。我们对文本提示、视觉提示和异构模式模型进行了系统分类。我们广泛介绍了它们在各种视觉任务中的应用，包括零镜头识别和定位能力、关于图像或视频的视觉对话、跨模态和医疗数据理解。我们总结了视觉中的基础模型如何作为通用模型同时解决多个任务，以及它们与大型语言模型的结合如何催生出能够在复杂环境中不断学习和导航的基础化身代理。我们希望这项工作能促进进一步的研究，以利用基础模型的潜力，同时解决其局限性，如有限的上下文理解、偏差和易被恶意使用等问题。