Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning视觉语言预训练任务SCL

摘要

跨模态对齐对于视觉语言预训练(VLP)模型学习不同模态之间正确的对应信息至关重要。为此,受掩蔽语言建模(MLM) 任务在NLP预训练领域的成功启发,已经为VLP提出了许多掩蔽建模任务,以进一步促进跨模态交互。先前掩蔽建模任务的核心思想是专注于基于可见上下文重构掩蔽令牌,以学习局部到局部的对齐。然而,他们中的大多数很少关注为屏蔽数据生成的全局语义特征,导致全局表示的跨模态对齐能力有限。因此,在本文中,我们提出了一种新的语义完成学习(SCL)任务,作为对现有掩蔽建模任务的补充,以促进全局到局部的对齐。具体而言,SCL任务通过从其他模态捕获相应的信息来补充屏蔽数据的缺失语义,促进学习对下游任务性能有很大影响的更具代表性的全局特征。此外,我们提出了一种灵活的视觉编码器,使我们的模型能够同时执行图像文本和视频文本的多模式任务。实验结果表明,我们提出的方法在各种视觉语言基准上获得了最先进的性能,如视觉问答、图像文本检索和视频文本检索。

简介

多模态表征学习是弥合不同模态之间异质性差距的关键技术[6,36]。在这一领域,视觉语言预训练模型[14,21,30,35,43]已经显示出令人印象深刻的语义对齐能力,这在各种下游任务上带来了实质性的优势,例如视觉问答、图像文本检索等。
在这里插入图片描述
图 1. (a) 以往的遮蔽建模任务与我们提出的语义完成学习(SCL)(由 "MVSC "和 "MLSC "组成)之间的比较。(b) 我们的模型在使用或不使用 SCL 预先训练的情况下,输入图像上的文本全局表示([CLS])的跨模态注意力图可视化。

最近,已经提出了许多自监督视觉语言预培训模型[3,10,14,17,31,32,43]。这些方法主要通过使用各种屏蔽建模任务来模拟视觉和语言特征之间的交互,如屏蔽语言建模(MLM)和屏蔽视觉建模(MVM)。如图 1(a)所示,MLM 和 MVM 的基本思想是通过利用信息丰富的可见标记来自我重建屏蔽标记,从而实现局部到局部的对齐。具体来说,BERT [24] 采用的 MLM 是预测被屏蔽词的原始词汇 ID。受 MLM 在预训练中取得成功的启发,将其扩展到视觉预训练任务的趋势日渐兴盛。一般来说,MVM 任务通过遮蔽一些视觉块,预测其原始像素[13, 17]、VQ-VAE 变体生成的相应离散词块[4, 10, 46]或定向梯度直方图(HOG)特征[11]等。

这些掩码建模任务只关注局部掩码标记的重建,而很少关注恢复因数据损坏而缺失的全局语义信息。标记层面的重建可能会导致跨模态信息的全局表征学习不足。如图 1(b)所示,在标记级重构的情况下,全局表征对另一模态的关注是无序的。这意味着预训练模型的全局到局部配准能力有限,从而导致全局表征能力下降。然而,全局语义特征对预训练模型的性能有很大影响,因为它们通常用于处理下游任务。因此,确保全局语义特征对学习更准确的全局到局部配准至关重要。

直观地说,考虑到配对的视觉数据和文本数据是同一语义信息的两个视图,可以通过捕捉另一种模态的信息来补全遮蔽数据中缺失的语义。从这个角度出发,我们提出了一种名为语义补全学习(SCL)的新型预训练任务。具体来说,SCL 由两部分组成:遮蔽视觉语义补全(MVSC)和遮蔽语言语义补全(MLSC)。如图 1(a)所示,MVSC(MLSC)利用完整文本(视觉)数据的信息来恢复遮蔽视觉(文本)数据的全局语义表征。这样,该模型就能生成具有代表性的全局特征,并实现全局到局部的精确对齐。例如,如图 1(b)所示,与没有经过 SCL 预训练的模型相比,经过 SCL 预训练的注意力图更具辨别力,也更合理。

在视觉语言预训练模型的架构方面,我们采用了由两个单模态编码器和一个融合编码器组成的通用框架。此外,我们还提出了一种灵活的视觉编码器,使我们的模型能够同时执行图像-文本和视频-文本多模态任务。具体来说,对于视频输入,视觉编码器只需添加几个额外的学习参数,而每帧的[CLS]特征则被视为连接帧内空间建模和帧间时间建模的桥梁。 受课程学习[3]的启发,我们先后使用图像-文本和视频-文本数据集训练模型,以便将视觉知识从图像转移到视频。

贡献

简而言之,我们的贡献有三个方面。
(1) 为了提高全局表征的全局到局部一致性,我们提出了一种新的预训练任务,称为语义填充学习(Semantic Com-pletion Learning,SCL),它能从未加掩码的数据中恢复缺失的语义信息,促进学习更具代表性的全局特征。
(2) 我们设计了一种自适应视觉编码器,可以在图像和视频之间方便地传输多模态预训练知识。
(3) 我们进行了多个视觉语言下游任务来证明语义完成学习和视觉编码器的通用性,包括视觉问题解答、视觉推理、图像文本检索和视频文本检索。 基于相似的预训练数据规模,我们的模型 SCL 达到了最先进的性能。我们的代码见 https://github.com/IIGROUP/SCL

相关工作

视觉语言预训练

现有的视觉语言预训练工作可分为两类:双塔架构和交叉融合架构。
基于双塔架构的方法[1-3, 12, 22, 39, 49]采用两个独立的编码器分别提取视觉数据(图像或视频)和文本数据的特征,然后将这些特征映射到一个共同的语义空间。其中,CLIP[39]利用直接从互联网上收集的大量噪声图像-文本对进行对比学习,在大量视觉-语言任务中取得了显著效果。同样,FROZEN [3] 提出了一种课程学习计划,通过将图像视为单帧视频,在图像-文本和视频-文本数据集上训练视觉语言模型。虽然这些基于双流架构的方法在跨模态检索任务中表现出色,效率很高,但由于局部视觉和文本特征之间的交互不足,它们在更复杂的多模态下游任务中的表现并不鼓舞人心

为了克服这一局限,人们提出了基于交叉融合架构的方法[5, 9, 30, 31, 43],这些方法采用跨模态融合编码器来增强视觉和文本特征之间的交互。例如,ALBEF[1]不仅通过对比学习调整图像和文本特征,还将它们输入基于跨模态注意力的编码器,以获得融合特征。Clover [18] 通过三模态对齐预训练任务改进了跨模态特征对齐和融合。我们的模型也进行了多模态特征融合,在更多下游任务中取得了令人鼓舞的性能。

掩码建模任务

最近,人们提出了各种掩码建模任务,其策略是自我重建掩码数据。BERT [24] 采用的屏蔽语言建模(MLM)是最经典的一种。它随机屏蔽输入中的一些词块,然后根据上下文预测被屏蔽词的原始词汇 ID。通过使用 MLM 进行预训练,BERT 在 11 项自然语言处理(NLP)任务中取得了最先进的结果。受 MLM 在 NLP 中取得成功的启发,一些研究将其扩展到了视觉领域,并提出了遮蔽视觉建模(MVM)。例如,VLMAE [17] 提出了区域遮蔽图像建模(RMIM)任务,以促进多模态特征的融合。RMIM 屏蔽了输入图像的某些斑块,然后根据可见斑块和相应文本重建原始像素。同样,VIOLET[10] 也提出了一种遮蔽视觉标记建模任务,它首先将原始视频帧补丁映射为离散的视觉标记,然后恢复遮蔽补丁的相应视觉标记,以训练视觉语言融合的联合编码器。然而,这些任务都侧重于重建局部的遮蔽标记,而忽略了跨模态交互后遮蔽数据的全局语义信息的恢复。因此,我们提出了一种新颖的语义补全学习(SCL)任务

方法

在本节中,我们首先在第 3.1 节中介绍我们的预训练目标,然后在第 3.2 节中描述模型架构。整个架构图和之前预训练任务的细节请参阅附录 A。

预训练任务

以前的预训练任务

对比学习(CL):输入图像和文本分别通过两个单模态编码器投射到视觉和语言嵌入空间。我们利用对比学习来调整语义特征的位置,使成对的图像和文本特征相近,负样本相远。然后在统一语义空间中对不同模态的特征进行标记融合。

视觉-文本匹配(VTM):VTM 的目的是确定图像-文本配对的对应关系。该模型对融合编码器生成的视觉和文本全局表示进行二元分类,有助于不同模态的整体匹配。

屏蔽语言建模(MLM):MLM 最初是自然语言处理中的一项前置任务,后来被引入到多模态预训练中。在以 15% 的概率屏蔽掉文本标记后,模型会尝试根据视觉信息和文本上下文预测原始单词。令牌级重构任务在模型学习关联语言单词和视觉实体、实现本地到本地语义对齐的过程中发挥了重要作用。

语义补全学习(SCL)

对模型来说,学习多模态信息融合(即从其他模态中提取知识)意义重大。我们希望模型能够在跨模态交互后恢复被遮蔽图像或文本的全局语义,而不是在单模态遮蔽建模任务中重建局部信息。

如图 2 所示,对于每一对数据,我们首先分别随机屏蔽图像和文本,得到{Imask,T}和{I,Tmask},这样被屏蔽的一方就能从另一方完整的模态中学习到语义信息。然后,这两对数据被分别发送给模型。通过利用另一模态的信息来补充其缺失的语义信息,从而获得被掩蔽数据的覆盖特征。
在这里插入图片描述
图 2. 我们提出的语义补全学习(SCL)概述。图像-文本对的两个版本分别向前传播,以执行遮蔽式视觉/语言语义补全

模型结构

我们的模型由三个部分组成: 视觉编码器、文本编码器和融合编码器。

视觉编码器

VisualBlock:预处理后的视觉标记被送入视觉编码器,视觉编码器可以处理图像和视频数据。视觉编码器是一个改进的 ViT [8],包含一个 VisualBlocks 堆栈。每个 VisualBlock 的细节如图 3 所示。具体来说,每个 VisualBlock 都将执行时间注意,以利用视觉数据的全局时间信息,并执行空间注意,以捕捉足够的局部空间语义信息。在时间注意力方面,我们对所有帧的[CLS]标记{gl-1 i0 }M i=1 进行多头注意,通过注意所有 M × (N + 1) 标记来产生[CLS]标记{gl i0}M i=1。关于空间注意力,它是指每一帧内的多头注意力。以第 i 帧为例,我们使用不含[CLS]标记的 {gl-1 ij }N j=1 作为查询,以帧中所有 N + 1 标记作为键和值来进行关注,得到输出标记{glij}Nj=1。 在进行了时间注意和空间注意后,我们将M[CLS] to-kens{gli0}Mi=1与M×Ntokens{{glij}Nj=1}Mi=1帧补丁串联起来,作为VisualBlock的输出,表示为Gl={gli}Mi=1。
在这里插入图片描述

文本编码器

给定输入文本T,我们首先将其标记化为单词嵌入{ti}Ki=1,其中K为单词总数。然后,文本编码器(由一叠双向变换器组成[44])通过上下文关系建模,将{ti}Ki=1映射为标记特征W={wi}Ki=1。

融合编码器

与文献[9, 43]类似,我们的融合编码器采用双流架构,每层由两个特定模态的自注意块和两个交叉注意块组成。 具体来说,以视觉特征为例,在视觉自注意块中进行模内交互后,我们在语言到视觉交叉注意块中进行跨模态交互,该块将视觉标记 G={gi}Mi=1 作为查询,将文本标记 W={wi}Ki=1 作为键和值。 文本特征采用类似的操作。最后,我们使用融合编码器生成的所有帧 [CLS] 标记的平均值池作为视觉数据的全局表示,并使用文本的 [CLS] 标记作为文本数据的全局表示。

实验

实现细节

根据最近的研究成果,我们使用 COCO [33]、Visual Genome (VG) [26]、Conceptual Captions (CC3M) [41] 和 SBU Captions [37] 进行图像-文本预训练,共包含 400 万张图像。然后,将预训练好的模型应用于图像-文本下游任务和视频-文本预训练的初始化。在接下来的视频-文本预训练中,我们使用 WebVid [3](包含 250 万个视频)作为预训练语料库。 我们在各种视觉语言理解和检索任务中使用了大量评估基准,包括视觉问题解答(VQA2.0 [16])、视觉推理(NLVR2 [42])、图像文本检索(Flickr30K [38]、COCO [33])和视频文本检索(MSRVTT [51]、LSMDC [40])。 我们按照 METER [9],利用CLIP-ViT-224/16 [39] 和 RoBERTa [34]来初始化语音和语言编码器。对于我们提出的 SCL,我们采用了较高的掩码率,图像为 80%,文本为 40%。有关预训练设置的其他详细信息,请参见附录 B.4.2。

评估结果

图文检索

我们评估了零样本和微调场景下的图像文本检索。 我们的模型使用相似的模型大小和预训练数据规模在 Flickr30K 和 COCO 数据集上取得了显著的性能提升。与 ALIGN [23] 和 ALBEF [29] 等在更大数据集上预先训练的模型相比,我们的结果也具有竞争力。在微调阶段,模型使用 CL 和 VTM 损失进行训练。在推理过程中,为了提高效率,我们首先用视觉和语言编码器筛选出前 k 个候选者,然后计算 VTM 分数进行排序。

为了考察模型的泛化能力,我们在 Flickr30K 数据集上进行了零样本实验。如表 2 所示,SCL 在 Flickr30K 上的两种零样本检索设置中都取得了最佳性能。当我们直接使用预训练模型进行评估时,SCL 比之前的方法获得了全面的提升,在 IR@1 和 TR@1 方面分别达到了 79.74% 和 91.7%。 当使用在 COCO 上微调的模型进行评估时,SCL 的表现优于在类似规模的数据集上预先训练的模型,包括 ALBEF [29] 和 TCL [52]。此外,与在 1400 万张图像上预先训练过的 ALBEF 相比,SCL 在六项召回指标中的五项都有更出色的表现,这进一步证明了我们提出的策略的有效性。
在这里插入图片描述
表2.Flickr30K上零样本图文检索的性能比较

如表 3 所示,在微调实验中,我们的模型远远超过了之前的模型。TCL[52]通过跨模态、模态内和全局-局部的三重对比学习获得了出色的检索性能。与 TCL 相比,我们的方法在 COCO 和 Flickr30K 上分别提高了+1.14%/+ 0.56%IR@1 和+2.10%/+ 1.00%TR@1 。值得注意的是,我们的模型在预训练了 18 亿个图像-文本对的情况下,得分也高于 ALIGN [23]。得益于语义补全学习SCL,全局特征捕捉到了更多跨模态信息,从而在检索方面取得了令人鼓舞的成绩。
在这里插入图片描述
表3.Flickr30K和COCO数据集上微调图像文本检索的性能比较

视频-文本检索

由于我们的视觉编码器具有适应性,图像-文本预训练模型可以很容易地转移到视频-文本预训练中。 我们在 MSRVTT 和 LSMDC 两个流行数据集上评估了文本到视频的检索,以证明视频预训练模型的性能。表 4 总结了在微调和零样本检索设置下的结果。在微调情况下,与之前的 SOTA 模型相比,SCL 在 MSRVTT 和 LSMDC 上的 R@1 分别提高了+4.6%和+10.1%,性能显著提高。在进行零样本检索时,SCL 与现有方法相比也有显著改进,在 MSRVTT 和 LSMDC 上的 R@1 分别为+4.8%和+3.4%。这些结果表明,我们从图像-文本数据中学到的 SCL 模型知识可用于提高视频-文本检索任务的性能。
在这里插入图片描述
表4.MSRVTT和LSMDC上文本到视频检索的性能比较

消融研究

我们对预训练任务和视觉编码器进行了实证消融实验。 由于预训练耗时较长,我们使用 COCO 和 VG 作为预训练数据集,这也是前人研究中的常见设置[19, 43, 50]。
在这里插入图片描述

表 5. 各预训练任务的消融研究。需要注意的是,没有经过 VTM 预先训练的模型只能使用视觉编码器和文本编码器进行零样本检索,而不能进行特征融合,因此召回率指标无法与其他模型进行比较。

不同的预训练任务

我们的方法中有四种预训练任务,包括 CL、VTM、MLM 和 SCL。如表 5 所示,我们探讨了每个任务对检索和理解数据集的影响。 第一行显示了我们的模型在包含所有预训练任务的情况下的结果,第二行至第五行分别反映了去除每个任务后的效果。从图中我们可以看出,在进行特征融合检索时,由于缺少 SCL,检索性能下降幅度最大。具体来说,SCL 在 F30KZS 的 IR@1 和 TR@1 中分别带来了 +3.38% 和 +6.20% 的提升。没有 MLM 的模型在 VQA2.0 的准确率上下降了 2.13%,这表明 MLM 对多模态理解任务有很大作用。至于 NLVR2,VTM 的影响相对较大。不过,在我们的模型中,对比学习只对检索有效,这可能是因为其他三个预训练任务已经充分学习了理解任务的跨模态融合。总之,比较第一行和第五行,带有 SCL 的模型在所有下游任务中都取得了进步,这表明该模型学习到了更准确的跨模态配准,从而生成了具有代表性的全局特征。

此外,SCL 包括 MVSC 和 MLSC,我们在表 6 中展示了它们的效果。根据前三行,MVSC 或 MLSC 都能提高下游任务的性能。我们发现,MVSC 对检索任务的影响更大,这可能是因为它提高了视觉信息理解的鲁棒性。在 VQA2.0 和 NLVR2 中,MLSC 发挥着更重要的作用。此外,当把这两个子任务结合起来时,我们的模型在大多数指标上都表现得更好,这表明它们之间存在协同作用。
在这里插入图片描述

SCL 中的掩码比

如表 7 所示,我们发现图像和文本的掩码率会影响下游任务,尤其是在零样本检索方面。VQA2.0 对掩码比的敏感度较低,因为该模型已通过大量数据进行了微调。从第二行到第四行来看,当图像掩码率固定时,文本掩码率为 0.4 的模型几乎具有最佳性能。此外,当文本掩码率设置为 0.4 时,图像掩码率为 0.8 的结果最高。我们推测,当掩码率较低时,语义补全将更多地依赖模内信息,缺乏跨模态学习,从而导致性能较差。当掩码率过高时,剩余的少量标记只能进行非常有限的跨模态交互。总之,我们选择 0.4 和 0.8 分别作为文本和图像的掩码比例。

视觉编码器设计

为了研究我们设计的视觉编码器处理视频数据的效果,我们将其与其他两种变体进行了比较:(1) 第一种变体称为 “均值池化”(Mean Pooling),它直接将视频视为 M 幅独立图像,然后使用 M 个 [CLS] 标记的均值池化作为视频表示。(2) 第二种变体称为全局 CLS,是 MCQ [14] 提出的视觉编码器。在本实验中,我们通过对比学习在 WebVid [3] 数据集上预先训练视觉编码器和文本编码器,然后在 MSRVTT 数据集上进行零样本跨模态检索。实验结果如表 8 所示,其中框架 CLS 表示我们设计的视觉编码器。可以发现,Frame CLS 在视频到文本和文本到视频的检索任务中都取得了最佳性能,这证明了视频时序建模的出色能力。

可视化分析

为了证明 SCL 促进了全局表征的跨模态对齐,我们在融合编码器的最后一层可视化了文本 [CLS] 和整个图像之间的交叉注意力图。如图 1(b) 和图 4 所示,我们对 12 个头部的注意力图进行了最大池化处理,绘制了热图。与经过 CL、VTM 和 MLM 预先训练的模型相比,使用 SCL 的模型能更精确地识别相关区域。例如,在图 1(b) 的第一幅图像中,在没有 SCL 的情况下,全局文本表示对图像的注意力分布是分散的,而经过语义完成学习后,[CLS] 会关注图像中的鱼、柠檬、芦笋。以图 4 中的第二幅图像为例,经过 SCL 预训练的模型可以识别出厨房中的碗碟和水槽,这表明其具有理想的全局到局部对齐能力。

观察图 4 中 12 个头像的注意力图,我们发现没有 SCL 的头像的注意力图对于一幅图像来说基本相同,但对于经过 SCL 预训练的模型来说,不同头像的注意力图各不相同,这说明每个头像都从图像中学习到了不同的信息。总的来说,语义补全学习鼓励全局表征学习跨模态交互,从另一种模态中提取有用的知识。更多可视化案例见附录 C。
在这里插入图片描述
图 4. 使用或不使用 SCL 对模型进行预训练后,整个图像上文字 [CLS] 的跨注意力可视化效果。12 个头部的跨模态注意力图来自融合编码器的最后一层。然后,我们通过最大集合注意力图来描绘热图。

结论

本文提出了一种新的视觉语言预训练任务——语义补全学习(SCL)。与之前重建掩蔽的局部标记的预训练任务不同,SCL利用跨模态交互来恢复掩蔽数据的全局语义信息,促进全局表示的跨模态对齐。消融研究和可视化分析证明了SCL的有效性。此外,我们还介绍了一种灵活的视觉编码器,它可以很容易地适应图像文本和视频文本的多模式任务。我们依次进行了图像文本和视频文本预训练,并将我们的模型应用于各种具有挑战性的下游任务。广泛的评估验证了我们的SCL方法的巨大优越性

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

若年封尘

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值