Abstract
最近,掩码图像建模(MIM)已成为视觉预训练的一个有前途的方向。在vision transformers的上下文中,MIM 通过将 token-level 标记级特征 与 预定义空间 对齐来学习有效的视觉表示(例如,BEIT 使用在大型图像语料库上训练的 d-VAE 作为 tokenizer 标记器)。在本文中,我们更进一步,引入了来自其他模态的指导,并验证了这些额外的知识是否会为视觉预训练带来令人印象深刻的收益。所提出的方法被命名为多模态引导视觉预训练 (MVP),其中本文 用 CLIP 的视觉分支替换标记器,CLIP 是一种在 4 亿图像文本对上预训练的视觉语言模型。本文通过执行标准实验来证明 MVP 的有效性,即在 ImageNet 上预训练 ViT 模型并在一系列下游视觉识别任务上对其进行微调。特别是,对 ViT-Base/16 进行 300 个 epoch 的预训练,MVP 在 ADE20K 上报告了 52.4% 的 mIoU,以 6.8% 的令人印象深刻的利润率超过了 BEIT(基线和之前的最新技术水平)。
深度神经网络一直是计算机视觉的基本工具,但它们通常需要大量带标签的训练数据 [9],而且模型有时会偏向语义标签。缓解这些问题的一个有前途的方向是无监督视觉预训练,这在学术界和工业界都引起了越来越多的关注。在基于几何 [24,35] 和图像生成 [25,33] 的早期努力之后,对比学习 [17,6,4,29,28,36] 的出现在从大规模图像数据中学习方面取得了很大进展。在没有语义注释的情况下,这些方法报告了具有竞争力的下游迁移性能,有时甚至超过了受监督的对应方法 [18]。另一种有趣的方法称为掩码图像建模 (MIM)。 MIM [2,16,34,37,12,41] 从输入中删除了部分图像块,并要求目标模型恢复丢失的内容。目前,MIM 有两个主要方向:一个 [2,12] 是预测标记化特征(例如,通过 dVAE [39] 或 VQ-VAE [32]),另一个 [16,37] 是预测像素级信息。 MIM 特别适用于vision transformer 模型,例如,当允许对预训练的主干进行微调时,ImageNet-1K [9] 报告了最先进的图像分类精度。但是,我们注意到,当主干冻结时,此类模型很弱——例如,BEIT [2] 报告在 ImageNet-1K 的线性探测测试中的准确率为 37.6%; MAE [16] 将其提高到 67.8%,但仍明显低于对比学习报告的结果(例如,DINO 报告为 78.2%)。这使本文推测预训练模型学习了相对较弱的视觉表示语义特征。
本文的目标是 增强 MIM 的语义。为此,本文提出了多模态引导视觉预训练 (MVP),这是一个将多模态信息整合到 MIM 中的单一但有效的框架,特别是 BEIT 框架 [2]。如图 1 所示,本文的动机很简单,即多模态数据可以提供更多的语义知识。因此,本文没有使用 用纯图像数据预训练的tokenizer ,而是用 用图像-文本对预训练的tokenizer 替换它。我们希望后者提供弱语义指导(因为标记器需要对齐视觉和语言)和 开放域的表示能力(文本不受一组预定义类的约束)。据我们所知,这是第一项研究在 MIM 框架上使用多模态预训练的工作。
MVP 很容易在 BEIT 上实现,即 直接更改tokenizer 。特别是,本文参考了 CLIP [26] 的预训练模型,该模型已经看到了 4 亿个图像文本对,并直接将视觉分支作为tokenizer 。它取代了由 d-VAE [39] 预训练的原始 tokenizer。除了预测前置任务,BEIT 的其他部分几乎没有变化。有趣的是,这样一个简单的修改为一系列下游任务带来了巨大的好处。 MVP 报告在 ImageNet-1K 线性探测上的准确率为 75.4%,显著超过 BEIT(37.6%)和 MAE(67.8%)的数字,展示了其强大的语义学习能力。在微调测试中,MVP 报告 ViT-Base/16 和 ViT-Large/16 主干的准确率分别为 84.4% 和 86.3%,两者均超过 BEIT 基线 1% 以上。最值得注意的是,当将预训练的主干转移到 ADE20K [40] 上进行语义分割时,具有 ViT-Base/16 主干的 MVP 实现了 52.4% 的 mIOU,这比所有现有的基于 MIM 的方法高出 3.6% 的显著优势。
本文的主要贡献可归纳如下:
- 本文分析了最近基于掩码图像建模 (MIM) 的缺乏语义知识的预训练方法,然后首先指出它们可以在其他模态的指导下得到增强。
– 本文设计了一种简单而有效的算法来提高基于 MIM 的视觉预训练的迁移性能。通过借助使用多模态数据(图像-文本对)预训练的tokenizer ,MVP 为每个图像学习更丰富的语义知识。
– 本文通过大量实验评估了 MVP 的有效性,结果清楚地证明了 MVP 优于最近提出的视觉预训练方法。
2 相关工作
在深度学习时代,视觉识别的基本方法是训练深度神经网络。在标记训练数据不足的情况下,一种流行的流程是 使用来自其他来源(例如 ImageNet [9])的标记/未标记数据对模型进行预训练,并将模型迁移到特定领域。本文主要关注无监督(自监督)预训练。在本节中,我们回顾了该领域的两个子主题,即 视觉预训练 和 多模态预训练。
2.1 视觉预训练
目前,由于具有对比损失的自监督学习方法[17,6,28,29]极大地提高了视觉模型的迁移性能,自监督学习已成为视觉预训练领域的主流。例如,He 等人 [17] 提出了一种动量对比框架来减少对批量大小要求的限制