Vision Transformer论文翻译

weixin_45625419

已于 2023-12-28 13:17:47 修改

阅读量934

点赞数 23

文章标签：论文笔记论文阅读 transformer 目标检测

于 2023-12-25 17:33:11 首次发布

本文链接：https://blog.csdn.net/weixin_45625419/article/details/135194431

版权

摘要

尽管Transformer架构已经成为自然语言处理任务的事实标准，但它在计算机视觉领域的应用仍然有限。在视觉中，注意力要么与卷积网络一起应用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们展示了对CNN的这种依赖并非必需，一个直接应用于图像块序列的纯Transformer在图像分类任务上表现非常出色。当在大量数据上进行预训练并迁移到多个中等规模或小型图像识别基准（ImageNet、CIFAR-100、VTAB等）时，Vision Transformer（ViT）相较于最先进的卷积网络取得了出色的结果，同时需要较少的计算资源进行训练。

介绍

基于自注意力机制的架构，特别是Transformer（Vaswani等，2017），已成为自然语言处理（NLP）中的首选模型。主导的方法是在大型文本语料库上进行预训练，然后在较小的任务特定数据集上进行微调（Devlin等，2019）。由于Transformer的计算效率和可扩展性，现在可以训练具有超过100B参数的前所未有大小的模型（Brown等，2020；Lepikhin等，2020）。随着模型和数据集的增长，目前仍然没有性能饱和的迹象。

然而，在计算机视觉领域，卷积架构仍然占主导地位（LeCun等，1989；Krizhevsky等，2012；He等，2016）。受到自然语言处理成功的启发，一些研究尝试将类似CNN的架构与自注意力相结合（Wang等，2018；Carion等，2020），有些甚至完全替代了卷积（Ramachandran等，2019；Wang等，2020a）。尽管理论上高效，但由于使用了专门的注意力模式，后者的模型在现代硬件加速器上尚未有效地扩展。因此，在大规模图像识别中，类似ResNet的经典架构仍然是当前技术水平（Mahajan等，2018；Xie等，2020；Kolesnikov等，2020）。

受到Transformer在自然语言处理中的扩展成功的启发，我们尝试直接将标准Transformer应用于图像，尽量减少修改。为此，我们将图像分割成图块，并将这些图块的线性嵌入序列作为Transformer的输入。图像块被视为NLP应用中的标记（单词），采用相同的处理方式。我们以监督方式在图像分类任务上对模型进行训练。

当在中等大小的数据集（例如ImageNet）上进行训练时，如果没有强烈的正则化，这些模型的准确性会略低于具有相似规模的ResNet，仅有几个百分点。这看似令人沮丧的结果是可以预期的：与CNN相比，Transformer缺乏一些归纳偏差，如平移等变性和局部性，因此在训练数据不足的情况下，其泛化能力较差。

然而，如果模型在更大的数据集（14M-300M张图像）上进行训练，情况就会发生变化。我们发现大规模训练胜过归纳偏差。当在足够规模上进行预训练并迁移到具有较少数据点的任务时，我们的Vision Transformer（ViT）取得了出色的结果。在公共ImageNet-21k数据集或内部JFT-300M数据集上进行预训练后，ViT在多个图像识别基准上接近或超过了最先进的水平。特别是，在ImageNet上最佳模型的准确率达到了88.55%，在ImageNet-ReaL上为90.72%，在CIFAR-100上为94.55%，在VTAB的19项任务套件上为77.63%。

方法

在模型设计中，我们尽量紧密地遵循原始的Transformer架构（Vaswani等，2017）。这种刻意简化设置的优势在于，可扩展的自然语言处理（NLP）Transformer架构及其高效的实现几乎可以直接使用。

VISION TRANSFORMER

模型的概述如图1所示。标准的Transformer接收一个1D序列的标记嵌入作为输入。为了处理2D图像，我们将图像 x ∈ ℝ^(H×W×C) 重新形状为一系列扁平化的2D图块 xp ∈ ℝ^(N×(P2·C))，其中 (H; W) 是原始图像的分辨率，C 是通道数，(P; P) 是每个图像块的分辨率，N = HW/P^2 是生成的图块数，同时也是Transformer的有效输入序列长度。Transformer在其所有层中使用恒定的潜在向量大小 D，因此我们将这些图块扁平化，并使用可训练的线性投影（Eq. 1）将其映射到 D 维。我们将这个投影的输出称为图块嵌入。
在这里插入图片描述
图1：模型概述。我们将图像分割为固定大小的图块，对每个图块进行线性嵌入，添加位置嵌入，并将生成的向量序列输入到标准Transformer编码器。为了进行分类，我们采用标准方法，即向序列添加一个额外的可学习的“分类标记”。Transformer编码器的示意图受到了Vaswani等人（2017）的启发。

类似于BERT的[class]标记，我们在嵌入的图块序列前添加了一个可学习的嵌入（z₀₀ = x_class），其在Transformer编码器输出时的状态（z₀ₗ）作为图像表示 y（Eq. 4）。在预训练和微调期间，一个分类头被连接到 z₀ₗ。分类头在预训练时由一个隐藏层的MLP实现，在微调时由一个单线性层实现。

为了保留位置信息，我们将位置嵌入添加到图块嵌入中。我们使用标准的可学习1D位置嵌入，因为我们没有观察到使用更先进的2D感知位置嵌入能够显著提高性能（附录 D.4）。得到的嵌入向量序列作为编码器的输入。

Transformer编码器（Vaswani等，2017）由交替的多头自注意力层（MSA，见附录A）和MLP块（Eq. 2, 3）组成。在每个块之前应用Layer Norm（LN），在每个块之后应用残差连接（Wang等，2019；Baevski＆Auli，2019）。

MLP包含两个具有GELU非线性的层。
在这里插入图片描述
Inductive bias. 我们注意到Vision Transformer比CNN具有更少的图像特定归纳偏差。在CNN中，局部性、二维邻域结构和平移等变性被烘焙到整个模型的每一层中。在ViT中，只有MLP层是局部的且具有平移等变性，而自注意力层是全局的。二维邻域结构被非常节制地使用：在模型的开始阶段通过将图像切分成图块，在微调时用于调整不同分辨率图像的位置嵌入（如下所述）。除此之外，在初始化时，位置嵌入不包含关于图块的二维位置的信息，所有图块之间的空间关系都需要从头学习。

Hybrid Architecture. 作为原始图像块的替代，输入序列可以由CNN（LeCun等，1989）的特征图形成。在这种混合模型中，对从CNN特征图中提取的图块应用图块嵌入投影 E（Eq. 1）。作为一种特殊情况，这些图块可以具有空间大小为 1x1，这意味着输入序列是通过简单地展平特征图的空间维度并投影到Transformer维度得到的。分类输入嵌入和位置嵌入如上所述被添加。

FINE-TUNING AND HIGHER RESOLUTION

通常，我们在大型数据集上对ViT进行预训练，然后对（较小的）下游任务进行微调。为此，我们移除预训练的预测头，并附加一个零初始化的D×K前馈层，其中K是下游任务的类别数量。通常，在比预训练更高的分辨率上进行微调是有益的（Touvron等，2019；Kolesnikov等，2020）。当输入更高分辨率的图像时，我们保持图块的大小不变，这导致了更大的有效序列长度。Vision Transformer可以处理任意长度的序列（受内存约束），然而，预训练的位置嵌入可能不再有意义。因此，我们对预训练的位置嵌入进行2D插值，根据它们在原始图像中的位置。请注意，这个分辨率调整和图块提取是手动将关于图像的2D结构的归纳偏差注入到Vision Transformer的唯一点。

实验

我们评估了ResNet、Vision Transformer（ViT）和混合模型的表示学习能力。为了了解每个模型的数据需求，我们在不同大小的数据集上进行预训练，并评估许多基准任务。考虑到预训练模型的计算成本，ViT表现得非常优越，在更低的预训练成本上达到了大多数识别基准测试的最新水平。最后，我们进行了一个小实验，使用自监督方法，并展示了自监督的ViT在未来有着潜在的前景。

设置

Datasets. 为了探索模型的可扩展性，我们使用包含1,000个类别和1.3百万张图像的ILSVRC-2012 ImageNet数据集（我们在以下称为ImageNet），其超集ImageNet-21k包含21,000个类别和14百万张图像（Deng等，2009），以及具有18,000个类别和303百万高分辨率图像的JFT（Sun等，2017）。我们根据Kolesnikov等人（2020）的方法，相对于下游任务的测试集对预训练数据集进行去重。我们将在这些数据集上训练的模型迁移到几个基准任务：ImageNet上的原始验证标签和清理后的ReaL标签（Beyer等，2020），CIFAR-10/100（Krizhevsky，2009），Oxford-IIIT Pets（Parkhi等，2012）以及Oxford Flowers-102（Nilsback＆Zisserman，2008）。对于这些数据集，预处理遵循Kolesnikov等人（2020）的方法。

我们还在包含19个任务的VTAB分类套件（Zhai等，2019b）上进行评估。VTAB评估了对各种任务的低数据传递，每个任务使用1,000个训练示例。这些任务分为三组：自然 - 类似于上述的任务，如Pets，CIFAR等。专业 - 医学和卫星图像等任务，以及结构化 - 需要几何理解的任务，比如定位。
在这里插入图片描述

Model Variants.我们的ViT配置基于BERT（Devlin等，2019）的配置，如表1所示。我们直接采用了BERT中的“Base”和“Large”模型，并添加了更大的“Huge”模型。在接下来的内容中，我们使用简短的符号来指示模型的大小和输入图块的大小：例如，ViT-L/16表示带有16×16输入图块大小的“Large”变体。请注意，Transformer的序列长度与图块大小的平方成反比，因此具有较小图块大小的模型在计算上更昂贵。

对于基线CNNs，我们使用ResNet（He等，2016），但将批归一化层（Ioffe＆Szegedy，2015）替换为组归一化（Wu＆He，2018），并使用标准化卷积（Qiao等，2019）。这些修改改善了迁移性能（Kolesnikov等，2020），我们将修改后的模型称为“ResNet（BiT）”。对于混合模型，我们将中间特征图馈送到具有一个“像素”大小的ViT中。为了尝试不同的序列长度，我们要么（i）取常规ResNet50的第4阶段的输出，要么（ii）移除第4阶段，在第3阶段放置相同数量的层（保持总层数不变），并取这个扩展第3阶段的输出。选项（ii）导致序列长度增加4倍，并且ViT模型更昂贵。

Training & Fine-tuning. 我们使用Adam（Kingma＆Ba，2015）对所有模型进行训练，包括ResNets，其中β1 = 0.9，β2 = 0.999，批量大小为4096，并且应用较高的权重衰减为0.1，我们发现这对于所有模型的迁移很有用（附录D.1显示，与常见的做法相反，在我们的设置中，Adam对于ResNets略优于SGD）。我们使用线性学习率预热和衰减，详见附录B.1。对于微调，我们使用带有动量的SGD，所有模型的批量大小为512，详见附录B.1.1。对于表2中的ImageNet结果，我们以更高的分辨率进行微调：ViT-L/16为512，ViT-H/14为518，并且还使用了Polyak＆Juditsky（1992）的平均，平均因子为0.9999（Ramachandran等，2019；Wang等，2020b）。

Metrics.我们报告在下游数据集上的结果，通过few-shot或fine-tuning的准确性。Fine-tuning准确性捕捉了在相应数据集上对每个模型进行微调后的性能。Few-shot准确性是通过解决一个正则化的最小二乘回归问题获得的，该问题将训练图像子集的（冻结的）表示映射到f−1; 1g K个目标向量。这种表述使我们能够在封闭形式中恢复精确解。尽管我们主要关注微调性能，但有时我们使用线性few-shot准确性进行快速的即时评估，而微调则会成本过高。

COMPARISON TO STATE OF THE ART

我们首先将我们最大的模型 - ViT-H/14 和 ViT-L/16 - 与文献中的最先进的CNN进行比较。第一个比较点是Big Transfer（BiT）（Kolesnikov等，2020），它使用大型ResNets进行监督转移学习。第二个是Noisy Student（Xie等，2020），它是使用半监督学习在ImageNet和JFT-300M上训练的大型EfficientNet，去除了标签。目前，Noisy Student在ImageNet上是最先进的，在这里报告的其他数据集上是BiT-L。所有模型都是在TPUv3硬件上训练的，我们报告了进行预训练所用的TPUv3核心天数，即用于训练的TPU v3核心数（每个芯片2个）乘以训练时间（以天为单位）。

在这里插入图片描述
表2：与流行的图像分类基准的最新研究进行比较。我们报告在三次微调运行中平均的准确性的均值和标准差。在所有数据集上，使用在JFT-300M数据集上预训练的Vision Transformer模型优于基于ResNet的基线，同时在预训练阶段所需的计算资源明显较少。在较小的公共ImageNet-21k数据集上预训练的ViT也表现良好。∗在Touvron等人（2020）中报告的88.5%的结果略有改善。

表2显示了结果。在所有任务上，JFT-300M上预训练的较小的ViT-L/16模型的性能优于BiT-L（它是在相同数据集上预训练的），同时训练所需的计算资源大大减少。较大的模型，ViT-H/14，在性能上进一步提高，特别是在更具挑战性的数据集 - ImageNet、CIFAR-100和VTAB套件上。有趣的是，与先前的最先进方法相比，这个模型在预训练时仍然需要大大少于的计算资源。然而，我们注意到预训练的效率不仅可能受到架构选择的影响，还受到其他参数（如训练计划、优化器、权重衰减等）的影响。我们在第4.4节提供了关于不同架构性能与计算的对照研究。最后，使用公共ImageNet-21k数据集在大多数数据集上表现良好的ViT-L/16模型，在预训练时所需的资源更少：它可以在标准的云TPUv3上使用8个核心在大约30天内进行训练。
在这里插入图片描述
图2：VTAB性能在自然、专业和结构化任务组中的详细情况。

图2将VTAB任务分解为它们各自的组，并与此基准上的先前SOTA方法进行比较：BiT、VIVI - 在ImageNet和Youtube上共同训练的ResNet（Tschannen等人，2020）以及S4L - 在ImageNet上进行监督和半监督学习（Zhai等人，2019a）。ViT-H/14在自然和结构化任务上优于BiT-R152x4和其他方法。在专业任务上，前两个模型的性能相似。

PRE-TRAINING DATA REQUIREMENTS

Vision Transformer在预训练时使用大型JFT-300M数据集表现良好。相较于ResNets，视觉方面的归纳偏差较少，数据集的大小有多重要呢？我们进行了两个系列的实验。
在这里插入图片描述
图三：迁移到ImageNet。尽管在小型数据集上预训练的大型ViT模型的性能不如BiT ResNets（阴影区域），但当在更大的数据集上预训练时，它们表现出色。类似地，随着数据集的增长，较大的ViT变体超过较小的变体。

首先，我们在不断增加的数据集上预训练ViT模型：ImageNet、ImageNet-21k和JFT-300M。为了提高在较小数据集上的性能，我们优化了三个基本的正则化参数 - 权重衰减、dropout和标签平滑。图3显示了在微调到ImageNet后的结果（其他数据集的结果见表5）2。当在最小的数据集ImageNet上进行预训练时，ViT-Large模型表现不及ViT-Base模型，尽管有（适度的）正则化。使用ImageNet-21k进行预训练时，它们的性能相似。只有使用JFT-300M时，我们才能看到较大模型的全部优势。图3还显示了不同尺寸的BiT模型所涵盖的性能区域。在ImageNet上，BiT CNNs在性能上优于ViT，但在较大的数据集上，ViT超越了BiT。

其次，我们在9M、30M和90M以及完整的JFT-300M数据集的随机子集上训练我们的模型。我们不在较小的子集上进行额外的正则化，并在所有设置中使用相同的超参数。这样，我们评估了固有的模型特性，而不是正则化的效果。但是，我们使用了提前停止，并报告训练期间达到的最佳验证准确性。为了节省计算资源，我们报告了少量微调准确性，而不是完整微调准确性。图4包含了结果。相比于具有可比较计算成本的ResNets，Vision Transformers在较小的数据集上过拟合得更多。例如，ViT-B/32比ResNet50略快；在9M子集上表现要差得多，但在90M+子集上表现更好。对于ResNet152x2和ViT-L/16也是如此。这个结果强化了卷积归纳偏差对较小数据集有用的直觉，但对于较大数据集，直接从数据中学习相关模式就足够，甚至有益。
在这里插入图片描述
图4：在ImageNet上的线性少样本评估与预训练大小的关系。ResNets在较小的预训练数据集上表现更好，但饱和点较早，而ViT在较大的预训练数据集上表现更好。ViT-b是ViT-B，其所有隐藏维度都减半。

总体而言，ImageNet上的少量微调结果（图4）以及VTAB上的低数据结果（表2）似乎对于非常低数据的迁移是有希望的。对ViT的少量微调特性进行进一步的分析是未来工作的一个激动人心的方向。

SCALING STUDY

我们进行了一个受控的缩放研究，评估了从JFT-300M进行迁移的不同模型的性能。在这种设置中，数据大小不会成为模型性能的瓶颈，我们评估了每个模型的性能与预训练成本之间的关系。模型集包括：7个ResNets，R50x1、R50x2、R101x1、R152x1、R152x2，预训练7个时代，以及R152x2和R200x3，预训练14个时代；6个Vision Transformers，ViT-B/32、B/16、L/32、L/16，预训练7个时代，以及L/16和H/14，预训练14个时代；以及5个混合模型，R50+ViT-B/32、B/16、L/32、L/16，预训练7个时代，以及R50+ViT-L/16，预训练14个时代（对于混合模型，模型名称末尾的数字不表示补丁大小，而是ResNet主干中总降采样比）。

在这里插入图片描述
图5：不同体系结构的性能与预训练计算的关系：Vision Transformers、ResNets和混合模型。在相同的计算预算下，Vision Transformers通常优于ResNets。对于较小的模型尺寸，混合模型改进了纯Transformer的性能，但对于较大的模型，差距消失了。

图5显示了从JFT-300M进行迁移的性能与总预训练计算成本之间的关系（有关计算成本的详细信息，请参见附录D.5）。有关每个模型的详细结果，请参见附录中的表6。可以观察到一些模式。首先，Vision Transformers在性能/计算权衡方面占优势。ViT使用的计算资源约为原来的2-4倍，可以达到相同的性能（在5个数据集上平均）。其次，在小型计算预算下，混合模型在性能上略优于ViT，但对于较大的模型，这种差异消失了。这个结果有些令人惊讶，因为人们可能期望卷积局部特征处理在任何大小下都有助于ViT。第三，Vision Transformers似乎在尝试的范围内没有达到饱和点，这激发了未来的扩展工作。

INSPECTING VISION TRANSFORMER

在这里插入图片描述
图7：
左侧：ViT-L/32 RGB值的初始线性嵌入滤波器。中间：ViT-L/32位置嵌入的相似性。瓷砖显示了具有指定行和列的补丁的位置嵌入与所有其他补丁的位置嵌入之间的余弦相似性。右侧：每个头和网络深度的关注区域大小。每个点显示了在一个层中的16个头中的一个头在所有图像中的平均关注距离。有关详细信息，请参阅附录D.7。

为了开始了解Vision Transformer如何处理图像数据，我们分析了其内部表示。Vision Transformer的第一层将扁平的图像块线性投影到一个低维空间（参见公式1）。图7（左）显示了学到的嵌入滤波器的前几个主要成分。这些成分类似于每个图像块内部结构的低维表示的合理基函数。

在投影之后，学到的位置嵌入被添加到补丁表示中。图7（中）显示模型学会了在位置嵌入的相似性中编码图像内的距离，即更接近的补丁倾向于具有更相似的位置嵌入。此外，出现了行列结构；相同行/列中的补丁具有相似的嵌入。最后，对于较大的网格，有时会出现正弦结构（附录D）。位置嵌入学会表示2D图像拓扑的事实解释了为什么手工制作的2D感知嵌入变体不会带来改进（附录D.4）。

在这里插入图片描述
图6：代表性的注意力示例，从输出令牌到输入空间。有关详细信息，请参见附录 D.7。

自注意机制使得ViT在最底层即可整合整个图像的信息。我们调查网络在多大程度上利用了这种能力。具体来说，我们基于注意力权重计算信息整合的图像空间的平均距离（图7，右侧）。这种“注意距离”类似于CNN中的感受野大小。我们发现一些注意力头在最底层就会关注整个图像，显示出模型确实利用了全局整合信息的能力。在低层中，其他注意力头的注意距离始终较小。在应用Transformer之前将ResNet应用于混合模型的情况下，这种高度局部的关注在混合模型中不太明显（图7，右侧），这表明它可能具有与CNN中的早期卷积层相似的功能。此外，随着网络深度的增加，注意距离也在增加。总体而言，我们发现模型会关注对分类具有语义相关性的图像区域（图6）。

SELF-SUPERVISION

Transformers在自然语言处理任务中表现出色。然而，它们的成功很大程度上不仅源于其出色的可扩展性，还源于大规模的自监督预训练（Devlin等，2019; Radford等，2018）。我们也进行了对自监督预训练的初步探索，采用了掩码图块预测的方式，类似于BERT中使用的遮蔽语言建模任务。通过自监督预训练，我们较小的ViT-B/16模型在ImageNet上取得了79.9%的准确率，相比从头开始训练提高了2%，但仍然比有监督的预训练低4%。附录B.1.2包含了更多细节。我们将对对比式预训练（Chen等，2020b; He等，2020; Bachman等，2019; Henaff等，2020）的探索留待未来的工作。

结论

我们已经探索了将Transformers直接应用于图像识别。与之前在计算机视觉中使用自注意力的工作不同，我们在架构中除了初始的图块提取步骤之外，并没有引入图像特定的归纳偏差。相反，我们将图像解释为一个补丁序列，并通过标准的Transformer编码器（如在自然语言处理中使用的）进行处理。这种简单但可扩展的策略在与大规模数据集的预训练相结合时表现出色。因此，Vision Transformer在许多图像分类数据集上达到或超过了最先进水平，同时相对较便宜进行预训练。

虽然这些初步结果令人鼓舞，但仍然存在许多挑战。其中之一是将ViT应用于其他计算机视觉任务，比如检测和分割。我们的结果，加上Carion等人（2020）的研究，表明了这种方法的前景。另一个挑战是不断探索自监督预训练方法。我们的初步实验显示了自监督预训练的改进，但自监督和大规模监督预训练之间仍存在很大差距。最后，进一步扩展ViT很可能会导致性能的提升。

weixin_45625419

关注

23
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
Vision Transformer论文翻译

基于自注意力机制的架构，特别是Transformer（Vaswani等，2017），已成为自然语言处理（NLP）中的首选模型。主导的方法是在大型文本语料库上进行预训练，然后在较小的任务特定数据集上进行微调（Devlin等，2019）。由于Transformer的计算效率和可扩展性，现在可以训练具有超过100B参数的前所未有大小的模型（Brown等，2020；Lepikhin等，2020）。随着模型和数据集的增长，目前仍然没有性能饱和的迹象。
复制链接

扫一扫