Abstract:
本文推出了 EVA,这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建 以可见图像块为条件的 屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。
此外,我们观察到 缩放 EVA 的量变导致迁移学习性能的质变,这在其他模型中是不存在的。例如,EVA 在具有挑战性的大词汇量实例分割任务中取得了巨大飞跃:本文的模型在具有超过一千个类别的 LVISv1.0 数据集和只有八十个类别的 COCO 数据集上实现了几乎相同的最先进性能。
除了纯粹的视觉编码器,EVA 还可以作为 以视觉为中心的多模态的支点 来连接图像和文本。我们发现从 EVA 初始化巨型 CLIP 的视觉塔可以 以更少的样本和更少的计算 极大地稳定训练 并优于从头开始的训练,为 扩大 和 加速 多模态基础模型的昂贵训练 提供了新的方向。为了方便未来的研究,本文发布了所有代码和十亿规模的模型。
(Code & Models: https://github.com/baaivision/EVA)
1. Introduction
扩大预训练语言模型 (PLM) [9,63,76] 在过去几年彻底改变了自然语言处理 (NLP)。这一成功的关键在于掩码信号预测 [31、74] 的简单且可扩展的自监督学习任务,利用该任务,Transformer 模型 [101] 可以使用几乎无限的未标记数据扩展到数十亿个参数,并且只需很少的调整就可以很好地泛化到各种下游任务。随着计算、数据和模型规模的进一步扩展,PLM 不仅带来了持续的性能改进 [51、75、76],而且令人惊讶地出现了上下文学习(in-context learning)能力 [9、25、107、108]。
受 NLP 模型扩展成功的推动,我们还可以将这种成功从语言转化为视觉,即 扩大以视觉为中心的基础模型,该模型有利于视觉和多模态下游任务。最近,掩码图像建模 (MIM) [5, 40, 116] 作为一种可行的视觉模型预训练和缩放方法得到了蓬勃发展。然而,最具竞争力的数十亿级视觉预训练模型 [33、64、71、123] 仍然 严重依赖监督或弱监督训练 以及数亿(通常是公开不可访问的)标记数据。 MIM 在某种程度上仅被用作 严格地监督预训练之前的 初始化阶段 [64],或者纯 MIM 预训练模型无法在十亿规模的模型大小下实现良好的性能 [117]。我们认为这种差距源于自然图像是原始的且信息稀疏的事实。同时,理想的视觉前置任务 不仅需要 低级几何结构信息的抽象,还需要高级语义的抽象,而像素级恢复任务 很难捕获这些信息[115]。
在这项工作中,本文为大规模视觉表示学习寻找合适的 MIM 前置任务,并探索其在十亿参数规模和数千万未标记数据下的极限。最近,有一些试验 利用 图像-图像 或 图像-文本 对比学习 [13、22、73] 的语义信息进行 MIM 预训练 [44、109、130],它们在视觉下游任务中表现相当好。然而,关于 (i) 标记化语义特征 可以为视觉中的掩码建模提供更好的监督信号 [5、70、104] 以及 (ii) 良好的性能也可以通过 没有掩码预测任务的 简单后蒸馏过程 [110 ]来实现 仍然存在争论 。通过试点实证研究,本文发现简单地使用图像-文本对齐(即 CLIP [73])视觉特征作为 MIM 中的预测目标可以很好地扩展 并在广泛的下游基准测试中 取得令人满意的性能。该预训练任务受益于图像文本对比学习的高级语义抽象 以及 掩码图像建模中几何和结构的良好捕获,这通常涵盖了大多数视觉感知任务所需的信息。
通过这个 MIM 前置任务,我们可以有效地将一个普通的 ViT 编码器 [33],称为 EVA,扩展到十亿个具有强大视觉表示的参数,可以很好地传输到广泛的下游任务&#