多模态文献阅读总结-CSDN博客

本文链接：https://blog.csdn.net/weixin_45023325/article/details/139453823

BEIT

摘要

BEIT-3是一个通用的多模态基础模型，用于处理视觉和视觉-语言任务。它通过三种方式推进了大型融合：骨干架构、预训练任务和模型扩展。

创新点

BEIT-3：该模型利用多路transformer进行深度融合和特定模态编码，在视觉和视觉语言任务中表现出色。
Pretraining Task: Masked Data Modeling：BEIT-3 将图像视为一种外语，能够以统一的方式对图像、文本和图像-文本对进行掩码 “语言” 建模，展示了在各种任务上的卓越性能。

模型

主干网络：多路Transformer（Multiway Transformer）

Multiway Transformer包含共享的多头自注意力层和由三个模态专家组成的模态专家层，即图像编码的视觉专家(V-FFN)、文本编码的语言专家(L-FFN) 和图像-文本融合的视觉语言专家(VL-FFN)。可以重用具有共享参数的Multiway Transformer用于不同的目的，例如，纯文本编码器、纯图像编码器和图像-文本融合编码器。如果输入是纯图像或纯文本向量，我们使用视觉专家编码图像，语言专家编码文本。如果输入由多个模态向量组成，例如图像-文本对向量，我们使用视觉专家和语言专家在底层Transformer层对各自的模态向量进行编码。然后在顶层使用视觉语言专家来捕获更多的模态交互。给定三种类型的输入向量，我们可以获得纯图像、纯文本和图像-文本上下文化表示。
在这里插入图片描述
BEIT-3可以转移到各种视觉和视觉语言下游任务。使用共享的Multiway Transformer，我们可以将模型重用为

(a)(b)视觉或语言编码器;
(c )融合编码器，对图像-文本对进行联合编码，实现深度交互;
(d)为有效检索分别对模式进行编码的双编码器;
(e)用于图像-文本生成的序列到序列学习。

统一的体系结构使bei -3能够支持范围广泛的下游任务。例如，BEIT-3可以作为各种视觉任务的图像主干，包括图像分类、对象检测、实例分割和语义分割。它还可以作为有效的图像-文本检索的双编码器和多模态理解和生成任务的融合模型进行微调。
在这里插入图片描述

Pretraining Task: Masked Data Modeling

对单模(即图像和文本)和多模数据(即图像-文本对)的统一掩模数据建模目标预训练beit -3。在预训练过程中，我们随机屏蔽一定比例的文本标记或图像补丁，并训练模型恢复被屏蔽的标记。

“先掩后预测”任务不仅学习表征，而且学习不同模态的对齐。随机屏蔽15%的单模文本标记和50%的图像-文本对文本标记。对于图像，掩码40%的图像补丁。

只使用一个预训练任务，这使得训练过程变得友好。本文证明了一个更小的预训练批大小可以用于mask-then-predict任务。

实验

Vision-Language Downstream Tasks
在广泛使用的视觉语言理解和生成基准上评估了BEIT-3的能力，包括视觉问答、视觉推理、图像文本检索和图像字幕。

Vision Downstream Tasks
除了视觉语言下游任务外，BEIT-3还可以应用于广泛的视觉下游任务，包括目标检测、实例分割、语义分割和图像分类。当使用BEIT-3作为视觉编码器时，有效参数的数量与viti -giant 相当。

VLMO

摘要

本文提出了一种统一的视觉语言预训练模型(VLMO)，该模型通过模块化transformer网络联合学习双编码器和融合编码器。具体来说，本文引入了Multiway Transformer，其中每个层包含一组特定于模态的专家和一个共享的多头自注意力。由于Multiway Transformer的建模灵活性，预训练的VLMO可以作为视觉语言分类任务的融合编码器进行微调，或者用作有效的图像文本检索的双编码器。本文还提出了一种分阶段预训练策略，该策略有效地利用了图像-文本对之外的大规模纯图像和纯文本数据。实验结果表明，VLMO在VQA、NLVR2和图像文本检索等视觉语言任务上取得了较好的效果。

本文创新点

本文有两点创新点：多路Transformer（Multiway Transformer）和分阶段预训练（Stagewise Pre-Training）。具体如下：

多路Transformer（Multiway Transformer）： 多路Transformer：引入了一种新的Transformer结构，能够编码不同的模态（图像、文本和图像-文本对）。
分阶段预训练（Stagewise Pre-Training）： 一种利用大规模图像数据和文本数据的预训练策略，以提高模型的泛化能力。

模型

给定图像-文本对，VLMO通过多路transformer获得纯图像、纯文本和图像-文本对表示。统一预训练对共享Multiway Transformer进行了优化，在纯图像表示和纯文本表示上实现了图像-文本对比学习，在图像-文本对表示上实现了图像-文本匹配和掩码语言建模。由于建模的灵活性，该模型可以用作检索任务的双编码器，在微调期间分别对图像和文本进行编码。它还可以作为一个融合编码器进行微调，以模拟图像和文本的更深层次的模态交互，用于分类任务。

输入：
图像输入类比于vit：H_i=[v_cls,v_1,…,v_N]+v_pos+v_type
文本输入类比于bert：H_t=[w_cls,w_1,…,1_M,w_sep]+t_pos+t_type
图像文本输入：H=H_i+H_t

多路Transformer（Multiway Transformer）： Multiway Transformer包含共享的多头自注意力层和由三个模态专家组成的模态专家层，即图像编码的视觉专家(V-FFN)、文本编码的语言专家(L-FFN) 和图像-文本融合的视觉语言专家(VL-FFN)。可以重用具有共享参数的Multiway Transformer用于不同的目的，例如，纯文本编码器、纯图像编码器和图像-文本融合编码器。如果输入是纯图像或纯文本向量，我们使用视觉专家编码图像，语言专家编码文本。如果输入由多个模态向量组成，例如图像-文本对向量，我们使用视觉专家和语言专家在底层Transformer层对各自的模态向量进行编码。然后在顶层使用视觉语言专家来捕获更多的模态交互。给定三种类型的输入向量，我们可以获得纯图像、纯文本和图像-文本上下文化表示。
在这里插入图片描述

分阶段预训练（Stagewise Pre-Training）： 本文提出了一种利用大规模图像数据和文本数据的预训练策略，以提高模型的泛化能力。该策略利用大规模纯图像和纯文本语料库来改进视觉语言模型。首先对纯图像数据进行视觉预训练，然后对纯文本数据进行语言预训练，以学习一般的图像和文本表示。该模型用于初始化视觉语言预训练，以学习视觉和语言信息的对齐。对于视觉预训练，我们在纯图像数据上训练多路Transformer的注意力模块和视觉专家。我们直接利用BEIT的预训练参数来初始化注意力模块和视觉专家。对于语言预训练，我们冻结了注意力模块和视觉专家的参数，以避免第一阶段学习的视觉知识的灾难性遗忘，并利用掩码语言建模对纯文本数据的语言专家进行优化。与图像-文本对相比，纯图像和纯文本数据更容易收集。此外，图像-文本对的文本数据通常短小简单。对纯图像和纯文本语料库进行预训练，提高了对复杂对的泛化能力。

在这里插入图片描述
预训练目标
通过对图像和文本表示进行图像-文本对比学习（Image-Text Contrast），对具有共享参数的图像-文本对表示进行掩码语言建模（Masked Language Modeling）和图像-文本匹配（Image-Text Matching），对VLMO进行联合预训练。
在这里插入图片描述
微调
进行微调，以适应各种视觉语言检索和分类任务。

在视觉问答和视觉推理等分类任务中，VLMO作为融合编码器对图像和文本的模态交互进行建模。

对于检索任务，VLMO可以用作双编码器，分别对图像和文本进行编码。
在这里插入图片描述

BLIP

摘要

BLIP，一个新的视觉-语言预训练（VLP）框架，它能够灵活地转换到视觉-语言理解和生成任务。BLIP 通过自举（bootstrapping）网络数据，生成合成的标题并过滤掉噪声数据，从而有效地利用了网络数据。BLIP 在多种视觉-语言任务上取得了最先进的结果，并且当直接迁移到视频-语言任务时表现出强大的泛化能力。

本文创新点

编码器-解码器的多模态混合(MED): 一种新的模型架构，用于有效的多任务预训练和灵活的迁移学习。MED可以作为单模编码器、基于图像的文本编码器或基于图像的文本解码器操作。该模型采用图像文本对比学习、图像文本匹配和图像条件化语言建模三个视觉语言目标进行联合预训练。
Captioning and Filtering (CapFilt): 一种新的数据集bootstrap方法，用于从噪声图像-文本对中学习。

模型

模型架构

为了预训练具有理解和生成能力的统一模型，我们提出了一种多模态混合编码器(MED)，该多任务模型可以在三种功能之一中运行:

单模态编码器（Unimodal encoder）：分别对图像和文本进行编码。文本编码器与BERT相同，其中在文本输入的开头附加一个[CLS]令牌以总结句子。图像编码器与VIT相同，它将输入图像划分为补丁并将其编码为嵌入序列，并使用额外的[CLS]令牌来表示全局图像特征。
基于图像的文本编码器（ Image-grounded text encoder）：通过在文本编码器的每个transformer块的自注意层(SA)和前馈网络(FFN)之间额外插入一层交叉注意层(CA)注入视觉信息。一个特定于任务的[Encode]标记被附加到文本中，[Encode]的输出嵌入被用作图像-文本对的多模态表示。
基于图像的文本解码器（Image-grounded text decoder）：将基于图像的文本编码器中的双向自注意层替换为因果自注意层。[Decode]标记用于表示序列的开始，序列结束标记用于表示序列的结束。

预训练目标

Image-Text Contrastive Loss (ITC)
Image-Text Matching Loss (ITM)
Language Modeling Loss (LM)

CapFilt

引入了两个模块:

captioner： 用于生成给定web图像的标题
filter： 用于去除噪声图像-文本对。

captioner和filter都是从相同的预训练MED模型初始化的，并在COCO数据集上分别进行微调。具体地说，captioner是一个基于图像的文本解码器。它与LM目标进行了微调，以解码给定图像的文本。给定web图像I_w, captioner生成合成字幕t，每个图像一个字幕。filter是一个基于图像的文本编码器。它与ITC和ITM目标进行了微调，以了解文本是否与图像匹配。filter去除原始web文本T_w和合成文本T_s中的噪声文本，如果ITM头预测文本与图像不匹配，则认为文本是噪声文本。最后，我们将过滤后的图像文本对与人工注释的图像文本对结合起来形成一个新的数据集，我们使用它来预训练一个新的模型。
在这里插入图片描述

CoCa

摘要

GroupViT

摘要

传统的语义分割通常需要像素级的标注来训练模型，这不仅成本高昂，而且模型往往只能识别有限的类别。为了解决这个问题，作者提出了一种新的方法，通过文本监督来学习语义分割。学习一个纯文本监督的语义分割模型，不需要任何超像素注释，能够以zero-shot方式泛化到不同的对象类别或词汇表集。

本文创新点

引入了GroupViT架构，在深度网络中超越规则形状的图像网格，以分层的自下而上的方式将图像中的视觉概念分组为不规则形状的组。
没有任何像素级标签和训练，只有使用对比损失的图像级文本监督，GroupViT成功地学会了将图像区域分组在一起，并以zero-shot的方式转移到几个语义分割词汇表。
这种方法是独一无二的，因为它是第一个仅基于文本监督而无需依赖逐像素注释即可实现语义分割任务零镜头传输的方法。它为这种新的分段任务模型训练方式奠定了坚实的基础。

GroupViT模型

总述
在这里插入图片描述
首先，使用成对的图像-文本数据联合训练GroupViT和文本编码器。经过GroupViT，有意义的语义分组自动出现，而无需任何掩码注释。然后，将训练好的GroupViT模型转移到zero-shot语义分割任务中。

模型

Grouping Vision Transformer

GroupViT包含了一个Transformer层和Grouping Block层交替，Transformer被分组为各个阶段，每个阶段都在逐渐增大的可视段上运行。右边的图像显示了在不同分组阶段出现的视觉片段。一个阶段将像素分成物体部分，例如大象的鼻子和腿，然后在更高的阶段，它们进一步合并成整个物体，例如，整个大象和背景森林。每个分组阶段以Grouping Block结束，Grouping Block计算学习到的组标记和段(图像)标记之间的相似性。分配通过gumbel softmax对组令牌进行计算，并转换为one-hot 硬分配。分配给同一组的段令牌合并在一起，并表示输入到下一个分组阶段的新段令牌。
在这里插入图片描述

Unicoder-VL

问题引出

当模型的自然语言输入是长序列(如问题)，而不是短短语(如标签)的话，CV、NLP这两种预训练模型不能很好地直接处理跨模态任务。一方面，由于ImageNet只覆盖分类标签，结果模型不能处理长序列。另一方面，现有的NLP预训练模型可以很好地处理长自然语言序列，但它们都没有直接接受过视觉内容的训练。

摘要

基于以上动机，提出了一种用于视觉和语言的通用编码器，简称unicode-vl，这是一种基于多层Transformer的通用编码器，旨在以预训练的方式学习视觉和语言的联合表示(特别是对于长序列)。受BERT和一些最近的跨语言预训练模型的启发，跨模态预训练框架旨在对视觉和语言内容之间的关系进行建模，并学习它们的联合表示。我们在unicode-vl训练中使用了大规模的图像标题对。该方法采用了三个预训练任务，分别是掩模语言建模(MLM)、掩模对象分类(MOC)和视觉语言匹配(VLM)。前两个任务共同学习基于语言和视觉内容的输入标记的上下文感知表示。最后一项任务试图预测图像和文本是否相互描述。

本文创新点

提出了一种用于视觉和语言的通用编码器，简称Unicoder-VLl。利用多层Transformer对跨模态语义表示进行建模。

模型

给定一对图像和句子，unicode-vl将图像中的visual regions和句子中的textual tokens的句子作为输入，然后对输入进行编码，进行语言嵌入和图像嵌入。然后将这些嵌入送进多层自注意Transformer中，以学习visual regions和textual tokens之间的跨模态上下文嵌入。下图为对象和文本掩码预测(或填空)任务上下文中的说明。
在这里插入图片描述
Linguistic Embedding： 在BERT的文本预处理之后，我们将每个输入文本标记为 $w =\{w_1,...,w_T\}$ 。 $T$ 为WordPiece的长度。此外，如上图所示，添加特殊token[CLS]和[SEP]。对于视觉元素，为每个元素分配一个特殊的[IMG]token。每个子词token的最终表示是将其词嵌入和位置嵌入相加，然后进行层归一化(LN)层。

Image Embedding： 对于每个输入图像，首先使用Faster R-CNN提取每个区域的视觉特征(ROI特征池)。还用5维向量 $b=(\frac{x_{1}}{W},\frac{y_{1}}{H},\frac{z_{2}}{W},\frac{y_{2}}{H},\frac{(y_{2}-y_{1})(x_{2}-x_{1})}{W\cdot H})$ 对位置特征进行编码，其中 $x_{1},y_{1})$ 和 $x_{2},y_{2})$ 分别表示左下角和右上角的坐标以及图像覆盖面积的比例， $W$ , $H$ 分别表示输入图像的宽度和高度。然后，视觉和位置特征都通过全连接(FC)层输入，投射到相同的嵌入空间中。每个区域的最终视觉嵌入是通过将两个FC输出相加，然后通过另一个LN层来获得的。最终图像区域表示为 $\mathbf{v}=\{v_1,...,v_I\}$ 。 $I$ 是从图像中提取的对象的长度。

预训练目标
在进行跨模态预训练时，提出了三个任务:掩模语言建模(MLM)、掩模对象分类(MOC)和视觉语言匹配(VLM)。

掩模语言建模(MLM)： 我们将语言输入表示为 $w =\{w_1,...,w_T\}$ 和图像区域为 $\mathbf{v}=\{v_1,...,v_I\}$ ，掩码指标 $m\in \mathbb{N} ^M$ 。在MLM中，我们以15%的概率随机屏蔽掉输入的单词，并用特殊的token[mask]替换被屏蔽的单词w $_\mathrm{m}$ 。通过最小化负对数似然,基于对周围单词w $_\mathrm{\langle m}$ 和所有图像区域v的观察来预测这些被屏蔽的单词
$\mathcal{L}_{\mathrm{MLM}}(\theta)=-E_{(\mathbf{w},\mathbf{v})\sim\mathrm{D}}\log P_{\theta}(\mathbf{w}_{\mathbf{m}}|\mathbf{w}_{\setminus\mathbf{m}},\mathbf{v})$
其中θ是可训练参数。每对(w, v)从整个训练集D中采样。

掩模对象分类(MOC)： 与MLM类似，对图像区域进行采样，并以15%的概率掩盖其视觉特征。在90%的时间里用零初始化向量 $\mathbf{v_m}$ 替换目标特征向量，在剩下的10%的时间里保持目标特征不变。将同一检测模型预测的置信度得分最高的对象类别作为ground-truth标签。我们首先将屏蔽区v $_{\mathrm{m}}^{(\mathrm{i})}$ 的Transformer输出送到FC层来预测K个对象类别的分数，进一步通过一个softmax函数转化为一个归一化分布 $g_\theta(\mathbf{v_m}^{(\mathrm{i})})$ 。最终目标是： $\mathcal{L}_{\mathrm{MOC}}(\theta)=-E_{(\mathbf{w},\mathbf{v})\sim\mathrm{D}}\sum_{i=1}^{M}\mathrm{CE}(c(\mathbf{v_{m}^{(i)}}),\mathrm{g}_{\theta}(\mathbf{v_{m}^{(i)}}))$

视觉语言匹配(VLM)： 通过VLM学习整个图像和句子之间的实例级对齐(而不是token/region级对齐)。我们采用[CLS]的最终隐藏状态来预测句子是否与视觉内容在语义上匹配，并增加一个FC层。得分函数记为 $s_\theta(\mathbf{w},\mathbf{v})$ 。在训练过程中，我们对正、负图像-句子对进行采样，学习它们的匹配分数(包括负图像和负句子)。我们将标签表示为 $y\in\{0,1\}$ ，表示采样对是否匹配。然后 $\begin{aligned}\mathcal{L}_{\mathrm{VLM}}(\theta)&=-\:E_{(\mathbf{w},\mathbf{v})\sim D}[y\log s_{\theta}(\mathbf{w},\mathbf{v})\\&+(1-y)\log(1-s_{\theta}(\mathbf{w},\mathbf{v}))]\end{aligned}$ 总的来说，有三个与图像文本输入相对应的训练机制。我们最终的预训练目标是上述损失的总和: $\mathcal{L}=(\mathcal{L}_{\mathrm{MLM}}+\mathcal{L}_{\mathrm{MOC}})\cdot I[y=1]+\mathcal{L}_{\mathrm{VLM}}$ ，其中 $I [y = 1]$ 表示标签1对于图像和标题对是正确的。

实验

Pre-training Unicoder-VL
Conceptual Captions数据集包含从网络上收集的大约3.3M个图像和字幕对，使用Conceptual Captions数据集做跨模态预训练。与Conceptual Captions类似，SBU Captions数据集也是自动从Web上收集的，包含1M对图像标题。最后，我们使用380万对图像标题对进行预训练。

我们的模型有12层Transformer块，每个块有768个隐藏单元和12个自注意头。最大序列长度设置为144。在进行VLM任务时，我们抽取1张负图像或1张负标题，然后判断该图像和标题是否匹配。

参数从BERT-base初始化，BERT-base仅在文本数据上进行预训练。对于视觉部分，我们为每张图像选择检测分数高于0.2的固定100个roi。如果符合条件的roi小于100，我们只需选择前100个roi，而不考虑检测分数阈值。

在预训练期间，我们的实验在4个NVIDIA Tesla V100 GPU上运行。我们表现最好的模型使用上面介绍的三个训练任务预训练了10个epoch，使用ADAM优化器，学习率为1e-4，批大小为192，梯度累积(每4步)。该模型将预热所有训练步骤的前10%。我们使用float16运算来加速训练并减少模型的内存使用。

Fine-tune on Downstream Tasks
在Image-Text Retrieval、Zero-shot Image-Text Retrieval、Visual Commonsense Reasoning任务上Unicoder-VL展现了良好的性能。

Unified Vision-Language Pre-Training for Image Captioning and VQA

问题引出&动机

多任务通用性：现有的视觉-语言预训练模型大多是为特定任务（如视觉问题回答VQA或图像字幕生成）定制的，这限制了模型在多种不同类型的视觉-语言任务中的通用性。VLP模型旨在通过微调能够适应生成（如图像字幕）和理解（如VQA）等多种任务。
编码器-解码器统一：许多现有方法中编码器和解码器是分开实现的，这可能导致编码器学习到的跨模态表示与解码器生成所需的表示不一致。VLP模型使用共享的多层Transformer网络进行编码和解码，以消除这种差异。

摘要

为了解决上述问题，本文提出了一种统一的视觉语言预训练(VLP)模型。该模型的统一之处在于:(1)它可以对视觉语言生成(例如，图像字幕)或理解(例如，视觉问答)任务进行微调，(2)它使用共享的多层变压器网络进行编码和解码，这与许多现有方法不同，其中编码器和解码器使用单独的模型实现。使用双向和序列对序列(seq2seq)mask视觉语言预测两个任务的无监督学习目标，对大量图像-文本对进行统一VLP模型的预训练。这两个任务的区别仅仅在于预测条件的上下文。这是通过对共享Transformer网络使用特定的自注意掩码来控制的。

本文创新点

统一编码器-解码器架构：VLP模型使用共享的多层Transformer网络进行编码和解码，与现有方法相比，这些方法通常使用不同的模型来实现编码器和解码器。统一的架构有助于学习更通用的视觉-语言联合表示。
跨模态预训练任务：VLP在大量图像-文本对上进行预训练，使用了两种无监督学习目标：双向（bidirectional）和序列到序列（seq2seq）掩码视觉-语言预测。这两种任务仅在预测条件的上下文方面有所不同，通过特定的自注意力掩码来控制。
无需特定任务的微调：VLP模型能够通过简单的微调应用于多种视觉-语言任务，包括图像字幕生成和视觉问题回答（VQA），无需针对特定任务进行复杂的特征设计和微调。

模型

本文提出了一个统一的编码器-解码器模型用于通用视觉语言预训练。使用共享的多层Transformer网络进行编码和解码，对大量图像文本对进行预训练，并针对两个无监督视觉语言预测任务进行了优化:双向和序列到序列(seq2seq)屏蔽语言预测。然后对预训练的模型进行微调，用于图像字幕和视觉问题回答。
在这里插入图片描述

输入表示（Input Representations）

区域嵌入（Region Embeddings）：输入图像通过目标检测器提取固定数量的区域，并为每个区域提取特征、对象标签和几何信息。
单词嵌入（Word Embeddings）：文本中的单词被表示为独热向量，进一步编码为单词嵌入。

Unified Encoder-Decoder

该模型使用一个共享的多层Transformer网络，这个网络既用于编码也用于解码，与许多现有方法不同，后者通常为编码和解码使用不同的模型。使用三个特殊的标记[CLS]、[SEP]和[STOP]来分别指示视觉输入的开始、视觉输入与句子输入之间的边界，以及句子的结束。

预训练目标（Pre-training Objectives）

双向预测任务（Bidirectional Objective）： 在这个任务中，模型尝试预测文本中被掩码的单词，考虑到所有图像区域以及单词在其左右两边的上下文。
序列到序列预测任务（Sequence-to-Sequence Objective）： 这个任务是自回归的，模型预测句子中下一个将要出现的单词，只能考虑到当前及之前的单词和所有图像区域。

自注意力掩码（Self-Attention Masks）

上下文控制：通过使用自注意力掩码，模型可以控制不同任务中的上下文信息流。例如，在双向任务中，掩码允许模型在预测时访问所有相关信息，而在序列到序列任务中，掩码确保了预测的自回归性质。
在这里插入图片描述
预训练过程（Pre-training Process）

大规模图像-文本对：VLP模型在大量图像-文本对上进行预训练，使用上述两种无监督学习目标。
交替训练：在预训练过程中，模型交替进行双向和序列到序列任务的训练，通过超参数λ控制两种任务的比例。

微调下游任务（Fine-Tuning for Downstream Tasks）

图像字幕生成（Image Captioning）：在微调阶段，模型使用序列到序列的目标，通过贪婪采样或束搜索生成描述。
视觉问题回答（Visual Question Answering）：VQA被框架化为多标签分类问题，模型在微调阶段学习将问题和图像的特征结合起来，预测答案。

实验

图像字幕生成：在COCO Captions和Flickr30k数据集上，与不使用预训练或仅使用BERT预训练的模型相比，VLP显著提高了任务特定微调的速度，并获得了更好的模型性能。特别是在Flickr30k数据集上，CIDEr指标上取得了5.1%的绝对增益，BLEU@4指标上取得了2.8%的增益。

视觉问题回答：在VQA 2.0数据集上，VLP模型在整体准确率上取得了优异的性能。

Vision-Language Pre-Training with Triple Contrastive Learning

问题引出&动机

本文的主要动机是解决现有视觉-语言（vision-language）模型在表示学习中的一些局限性。具体来说，动机包括以下几点：

跨模态对齐的不足：尽管现有的视觉-语言模型通过使用对比损失（如InfoNCE损失）来实现图像和文本之间的对齐，并最大化它们之间的互信息（MI），但这种方法主要关注于跨模态对齐（CMA），而忽略了模态内部的数据潜力。
局部和结构信息的缺失：现有模型在进行全局信息最大化时，可能会忽略输入中的局部和结构信息，导致模型偏向于提取某些不相关或嘈杂的图像区域或文本标记中的信息。

摘要

本文提出了利用跨模态和内模态自我监督进行视觉语言预训练的三重对比学习(TCL)。除了CMA，TCL，还引入了一个模态内对比目标，为表征学习提供互补的好处。为了利用来自图像和文本输入的本地化和结构化信息，TCL进一步最大化了图像/文本的局部区域与其全局摘要之间的平均MI。本文是第一个在多模态表示学习中考虑局部结构信息的研究。实验评估表明，本文方法具有竞争力，并且在各种常见的下游视觉语言任务(如图像文本检索和视觉问答)上达到了最新的技术水平。

本文创新点

本文的主要创新点集中在提出三重对比学习（Triple Contrastive Learning, TCL）这一新的框架上，具体创新包括：

跨模态与内模态自监督结合：TCL不仅利用跨模态对齐（CMA）来拉近图像和文本的嵌入表示，还引入内模态对比（IMC）来增强同一模态内部的表示学习，确保学习到的特征在各自模态内也是有意义的。
局部互信息最大化（LMI）：TCL引入局部MI最大化，鼓励模型在全局表示和输入的局部区域（如图像块和文本标记）之间建立高互信息，以捕获输入数据的局部和结构化信息。
动量编码器：TCL为每种模态的编码器引入了动量编码器，通过动量移动平均策略更新，增强了模型的稳定性和鲁棒性。

模型

模型架构

A：该模型框架，包括一个视觉编码器，一个文本编码器和一个融合编码器。每个编码器都有一个配对的动量编码器，由基于动量的移动平均线更新。对于图像输入，我们应用两个独立的数据增广算子(a和b)，它们从相同的增广族中采样。对准模块包含三个对比目标(即CMA, IMC和LMI)，用于跨模态和模态内表示学习(使融合编码器更容易学习联合多模态嵌入)。

B：原始图像(粉色)被增强为两个不同的图像(绿色)。仅对于CMA，中间图像只有一个positive的文本示例(绿色)，并将其他文本(红色)视为negatives文本。它的嵌入(蓝色圆圈)将接近其positive文本示例。通过整合IMC，它有两个positive例子(一个文本和一个图像)和两组negatives例子(一个来自文本和一个来自图像)，并且倾向于学习更合理的嵌入(蓝色方块)。

在这里插入图片描述
三重对比学习模块（TCL）

跨模态对齐(CMA)
CMA的目标是将匹配的图像-文本对的嵌入(从联合分布中采样)拉到一起，同时将不匹配的图像-文本对的嵌入分开(从边缘分布的乘积中采样)。换句话说，CMA旨在最大化匹配的图像和文本之间的MI，假设它们描述相同的语义含义。
模态内对比(IMC)
与CMA不同的是，IMC试图学习同一模态内正反两种样本之间的语义差异。在每个模态内部，通过对比学习来学习正负样本之间的语义差异，增强同一模态内不同视图的一致性。
局部MI最大化(LMI)
鼓励全局表示与输入的每个局部区域（如图像块和文本标记）之间具有高互信息，以捕获局部和结构化信息。
预训练目标：
图像-文本匹配（ITM）：预测给定的图像-文本对是否匹配，作为二元分类问题。
掩码语言建模（MLM）：预测文本中被掩盖（masked）的部分，基于BERT的变体，但条件是图像表示和周围文本标记。