CoCa:多模态图像-文本基础模型

原文:Yu J, Wang Z, Vasudevan V, et al. CoCa: Contrastive Captioners are Image-Text Foundation Models[J]. arXiv preprint arXiv:2205.01917, 2022.

探索大规模预训练基础模型在计算机视觉中具有重要意义,因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(Contrastive Captioner,简称CoCa),结合对比损失和captioning损失来预训练图像-文本编码器-解码器基础模型,从而兼具了对比方法(如CLIP)和生成方法(如SimVLM)的优点。与标准的编码器-解码器Transformer(所有解码器层都参与编码器输出的处理)不同,CoCa省略了解码器前半部分的交叉注意力来编码纯文本表示,并在后半部分用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。我们在单模态图像和文本嵌入之间应用对比损失,在多模态解码器的输出上应用captioning损失,以自回归的方式预测文本tokens。通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了预训练。从经验上看,CoCa在广泛的下游任务上实现了SOTA性能,包括视觉识别(ImageNet、Kinetics-400/600/700、Moments-in-Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是,CoCa在ImageNet图像分类任务上,采用零样本的方式获得了86.3%的精度,使用冻结编码器获得了90.6%的精度,使用微调编码器获得了91.0%的SOTA精度。

★  相关工作

★  论文故事

深度学习最近见证了基础语言模型的兴起,如BERT、 T5、 GPT-3,这些模型在大规模数据上进行预训练,并通过零样本、小样本或迁移学习的方式展示了通用的多任务能力。与专业模型相比,针对大规模下游任务的预训练基础模型可以分摊训练成本,为模型达到并超过人类智能提供了契机。

针对视觉和视觉-语言问题,研究者们已经探索了几种基础模型:(1)开拓性工作表明,在图像分类数据集(如ImageNet)上,使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供了通用的视觉表示,可用于各种下游任务,包括图像和视频理解。然而,这些模型在很大程度上依赖于图像注释作为标记向量,并且没有吸收人类自然语言的知识,这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。(2)最近,研究者们在大规模含有噪声的图像-文本对上,利用对比损失对两个并行的编码器进行预训练,证明了图像-文本基础模型的可行性。除了仅用于视觉任务的视觉嵌入外,形成的双编码器模型还可以将文本嵌入编码到相同的潜在空间,从而实现新的跨模态对齐功能,如零样本图像分类和图像-文本检索。然而,由于缺少学习图像-文本融合表示的联合组件,这些模型不能直接适用于视觉-语言理解任务,如视觉问答(VQA)。(3)另一项研究探索了使用编码器-解码器模型进行生成式预训练,以学习通用的视觉和多模态表示。在预训练期间,模型从编码器一侧获取图像,并在解码器输出上应用语言建模损失(或PrefixLM)。对于下游任务,解码器的输出可以用作多模态理解任务的联合表示。虽然通过预训练的编码器-解码器模型获得了优异的视觉-语言结果,但它们不会生成与图像嵌入对齐的纯文本表示,因此对于跨模态对齐任务来说,可行性和效率较低。 

在这项工作中,我们统一了单编码器、双编码器和编码器-解码器范式,并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa),该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示,我们将Transformer解码器解耦为两部分,分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示,并用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。我们在图像编码器和单模态文本解码器的输出之间应用对比损失,并在多模态解码器的输出处应用captioning损失。此外,通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号,有效地将上述三种预训练范式纳入到统一的方法中。

图1:经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务,包括视觉识别、视觉-语言对齐、图像描述和多模态理解。

CoCa利用对比学习来学习全局表示,并为细粒度的区域级特征添加文本描述,从而有利于图1所示的三类任务。CoCa表明,单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如,CoCa在ImageNet上获得了86.3%的零样本图像分类精度,在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器,CoCa在ImageNet上的分类精度为90.6%,在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%,在Moments-in-Time上的得分为47.4%。经过微调后,CoCa在ImageNet上的分类精度进一步达到了91.0%,在VQA上的得分达到了82.3%,在NoCaps上的得分达到了120.6。 

★  模型方法

图2:CoCa的架构和训练目标。

表1:CoCa的变体。图像编码器和文本解码器都是Transformer。

图3:用于视频识别的CoCa。

  实验结果

图4:CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。

表2:使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。

图5:模型大小对图像分类精度的影响。

表3:在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。

表4:在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。

表5:在MSR-VTT测试集上的零样本视频-文本检索结果。

表6:CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。 

表7:在MSCOCO和NoCaps数据集上的图像描述结果。

图6:CoCa以NoCaps图像作为输入生成的文本标题示例。

表8:CoCa的消融实验。默认设置用粗体显示。

表9:视觉识别实验中使用的超参数。

表10:多模态实验中使用的超参数。

  总结讨论

在这项工作中,我们提出了图像-文本基础模型CoCa,将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练,在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。 

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号,一起进步^_^↑

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值