最新轻量ViT综述！后Transformer时代如何发展？

最新推荐文章于 2023-08-20 16:41:42 发布

深度学习技术前沿

最新推荐文章于 2023-08-20 16:41:42 发布

阅读量581

点赞数

文章标签： transformer 深度学习人工智能计算机视觉神经网络

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247527819&idx=3&sn=4a8eaf527821e22be8092d3d2181c070&chksm=fc4dd7c9cb3a5edf85fbfe0d18c0f16dbb245bede0d84e5e262de56f196cba525f9fe31135c0&scene=126&sessionid=0

版权

摘要

视觉Transformer（ViT）已经通过使用基于注意力的编码器-解码器模型，彻底改变了这一领域。最近，一些开创性的工作在计算机视觉（CV）中采用了类似Transformer的架构，他们报告了这些架构在图像分类、目标检测和语义分割等任务中的出色性能。ViT由于其具有竞争性的建模能力，已证明其性能优于卷积神经网络（CNN）。然而，这些架构需要大量的计算资源，这使得这些模型难以部署在资源受限的应用程序中。已经开发了许多解决方案来解决这一问题，例如压缩Transformer和压缩函数，如扩张卷积、最小-最大池化、1D卷积等。模型压缩最近作为一种潜在的补救措施引起了相当大的研究关注。文献中提出了许多模型压缩方法，如权重量化、权重复用、剪枝和知识蒸馏（KD）。然而，权重量化、修剪和权重复用等技术通常涉及用于执行压缩的复杂管道。KD已被发现是一种简单而有效的模型压缩技术，它允许相对简单的模型几乎与复杂模型一样准确地执行任务。本文讨论了基于KD的各种有效压缩ViT模型的方法。本文阐述了KD在降低这些模型的计算和内存需求方面所起的作用。本文还介绍了ViT面临的各种挑战，这些挑战尚待解决。

简介

深度神经网络（DNN）是当今人工智能系统（AI）的组成部分。不同类型的网络已经与不同类型的任务相关联。例如，经典的神经网络，如多层感知（MLP）和全连接（FC），使用多个线性层和叠加在一起的非线性激活。卷积神经网络（CNN）使用卷积层和池化层来处理图像等移位不变数据。类似地，递归神经网络（RNN）使用递归神经元来处理序列或时间序列数据。Transformer是新型神经网络。它主要依靠自注意机制来提取内在特征，在人工智能中有很高的应用前景。近年来，由于变压器模型架构在广泛领域（包括语言和视觉）的有效性，Transformer架构获得了极大的关注。例如，Transformer是当今自然语言处理中深度学习堆栈的关键组成部分。Transformer的变体以及最近研究和实践的激增可能会使研究人员和从业者难以跟上创新的步伐。在过去的六个月里，已经提出了近十几种新的内存高效的轻量级模型。鉴于此，综述调查现有文献是非常及时和有益的。Transformer模型的一个关键特征是其自注意力机制。整个机制可以被解释为通过基于相关性的池化以顺序方式互连所有令牌的类似图形的诱导性偏差。自注意力以其二次时间和内存复杂性而闻名，这阻碍了模型在各种设置中的可伸缩性。最近，这一问题得到了大量模型变体的解决。论文对这类模型的称呼是“高效Transformer”。

可以采用不同的方法来解释模型的效率。当模型运行的加速器内存有限时，它的内存占用可能很重要。在分析系统效率时，考虑计算成本（如FLOP）也很重要，无论是在训练还是进行推理时。对于设备上应用程序，通常需要在非常有限的计算预算内操作模型。本文讨论了Transformer的内存和计算效率。论文特别感兴趣的是，当将知识蒸馏（KD）应用于压缩技术时，这些模型的性能；第一部分介绍了ViT的通用框架和简介。第二部分讨论了ViT在CV领域面临的主要挑战。最后，本文对为ViT实现的各种压缩方法进行了比较分析，以使其在计算和内存需求方面具有资源效率。

开放研究挑战

Positional Encoding：Transformer模型是置换等变的。通常添加位置和段嵌入以提供有关输入令牌的顺序和类型信息。几部作品探讨了如何在Transformer[6]、[7]、[8]中包含position。在[6]、[7]和[8]的许多研究中，相对位置编码被认为优于绝对位置编码。然而，目前尚不清楚造成这种差异的原因。

Weaker Inductive Bias：虽然ViT是CNN的优秀替代品，但一个使其应用极具挑战性的限制是对大型数据集的需求。ViT缺乏CNNs固有的归纳偏置，如翻译等，这使得当在不足的数据上进行训练时，其泛化能力较差。在较大数据集的情况下，情况会发生变化，例如包含14M-300M图像的Google Inhouse Large（JFT-300）。后者使ViT在RandAug[13]、Cut-Mix[14]、Mixup[15]等先进数据增强技术上具有高度可靠性。已经发现，即使有相对少量的数据，CNN也可以学习，这主要是由于其固有的归纳偏置。换句话说，归纳偏置有助于模型更快地学习和更好地泛化。尽管卷积结构在CV中仍然占据主导地位[16-18]，但人们对其探索和应用仍有越来越多的兴趣。

Quadratic Complexity of Attention Mechanism：与NLP Transformer一样，ViT以与一般注意机制类似的方式缩放点积注意力。但这种方式的复杂度很高，一定程度上限制了ViT的大规模应用。

准备工作：KD

已经开发了许多解决方案来解决这些问题，例如压缩Transformer和实现压缩函数，例如扩张卷积、最小-最大池化1D卷积等。模型压缩最近作为一种潜在的补救措施引起了相当大的研究关注。使用极端压缩方法，特别是超低位精度（二进制/三进制）量化，可以在资源受限的设备上拟合大型NLP模型[33]。创新的压缩管道通常涉及多个阶段的高成本知识蒸馏，以及针对此类激进压缩方案的多个超参数调整。此外，他们很少关注已经被知识蒸馏严重压缩的小型Transformer模型，需要系统的研究来支持他们的结论。作为知识蒸馏的结果，可以使用较大模型（称为教师）的输出（来自各种中间功能组件）来训练较小模型（称为学生）。有时信息是通过中介模型（通常称为助教）提供的[34]，[35]。知识蒸馏由三个主要部分组成：知识、提炼算法和师生架构。教师和学生之间的知识共享框架。教师和学生之间的知识共享框架如图1所示，其中概述了知识提炼过程及其与相邻部分的关系。从图3中可以很好地理解所有分段的图示：

常用的蒸馏损失函数包括KL散度、MSE、Cosine Similarity Loss和Cross-Entropy Loss等。

有效ViT压缩的不同KD方法

本节讨论了使用不同知识蒸馏方法对ViT进行积极压缩的各种解决方案。知识蒸馏（KD）有效地提高了轻量级学生网络的性能，因为教师可以直接向学生传授领域知识。当在大数据集上进行预训练时，通常会发现大模型比小模型获得更好的结果，因为小模型在数据规模增加时容易饱和（或不足）[46]。通过提取大规模的预训练数据，一个强大的模型可以作为小模型的老师。同时，提取的小模型可以很容易地应用于下游任务，因为他们已经从大型和大型预训练数据集中学习了很多关于泛化的知识。下面介绍了文献中提出的一些解决方案，以使用KD方法在资源受限的环境中部署ViT。

Target aware Transformer

作者[46]提出的一个新颖的解决方案指出，在之前的大多数研究中，表征特征从教师回归到学生，作为一对一的空间匹配。然而，由于架构的差异，研究人员需要更加关注这一点。空间位置可以根据其位置而具有不同的语义信息。因此，一对一蒸馏方法受到极大破坏。[46]中的作者通过通过Target aware Transformer（TaT）提出了一种新颖的一对所有空间匹配知识提取方法来实现这一点。TaT允许教师特征的每个像素被转换为学生特征的所有空间位置，给定其相似性。在他们提出的方法中，使用参数相关性将教师的特征提取为所有学生特征，即，提取损失是所有学生特征的加权总和。使用Transformer结构，他们重建了每个学生特征组件，并将其与目标教师特征对齐。因此，提出的方法被命名为TaT。所提出的方法面临的一个关键挑战是，由于它计算了特征空间位置之间的相关性，因此在大型特征地图的情况下，它很可能变得难以处理。为了克服这一问题，作者以分层两步的方式扩展了管道，如下所示：

特征图被分成几个块，在每个块中，一对一地进行提取，而不是使用所有空间位置的相关性；
他们将补丁中的特征平均为一个向量，以提取知识。

对于特征对齐，使用TaT将教师和学生模型特征转换为相似的特征空间。

知识蒸馏方法：具有KL散度（KLD）损失函数的Patch group蒸馏和Anchor点蒸馏。图5和图6给出了拟议方法[46]的说明。

主要观察结果：

除了logits之外，学生Transformer还可以通过从中间层获取信息来获取更多信息；
在[46]中，蒸馏应用于骨干网络的最后一层，即网络的logits；
一些工作已经探索了多层蒸馏，所以当涉及多层时，看看它的有效性会很有趣。

Fine-Grain Manifold Distillation Method

[47]提出了另一种新的解决方案，即通过Fine-Grain Manifold Distillation进行定向学习。在流形学习中，维数被非线性地降低。它通过学习嵌入在原始特征空间中的平滑流形来构建低维特征。KD最近引入了流形学习的概念。通过这些方法[47]，学生们学习如何保持教师所教样本之间的关系。这些主要尝试是粗略的，可以进一步改进，因为补丁而不是图像是ViT的基本输入元素。该方法利用矩阵的正交分解将流形关系映射解耦为三部分。关系图有三个部分，图像内关系图、图像间关系图和随机采样关系图。例如，在论文[47]中，计算了包含相同颜色的每组面片的流形关系图，如图7所示。

知识蒸馏方法：使用流形蒸馏损失（MD损失），它是图像内patch级蒸馏损失+图像间patch级蒸馏损失+随机采样patch级流形蒸馏损失与原始知识蒸馏损失函数的组合。计算Manifold distillation损失以映射教师和学生模型特征。图7说明了图像级和patch级流形，如下所示：

所提出的蒸馏方法的总体结构如图8所示：

主要观察结果：

使用流形空间映射学生和教师特征，并将映射损失解耦为三项以降低计算复杂性；
解耦显著减少了计算和内存空间，但如果patch太小，则计算和存储开销太高；
对于224×224的输入大小，Swin Trans中的patch数N为3136。使用如此大的patch数量显著增加了图像内流形损失Lintra的计算复杂性和存储空间需求。

Cross Inductive Bias Distillation

Sucheng等人[48]提出了另一种新的解决方案，称为Cross Inductive Bias Distillation（Coadvice）。论文[48]中的作者指出，教师准确度不是学生准确度的主要因素，但感应式教师偏差是。建议学生Transformer可以与具有不同架构感应式偏差的轻量级教师一起很好地完成，从而提供卓越的结果。因此，尽管在同一数据集上接受过训练，但具有不同归纳偏差的教师拥有不同的知识，而具有不同归纳偏差的模型往往侧重于不同的模式。在蒸馏过程中，由于多教师网络提取了不同的知识，学生对数据和组件有了更准确和全面的理解。还提出了一种令牌感应偏差对齐方法，以将令牌的感应偏差与其目标教师模型对齐。[48]中提出的视觉Transformer（CiT）优于所有现有的ViT，仅使用具有交叉感应偏置蒸馏方法的轻量级教师。

主要观察点：

根据这项研究，教师内在的归纳偏见比教师的准确性更重要；
CNN和INN具有归纳偏见，这会导致互补模式，而归纳偏见较少的视觉Transformer可以从两种架构中继承信息；
当老师具有不同的归纳偏见时，给多个具有不同归纳偏见的老师的学生更有可能学习各种知识；
与在变压器中引入归纳偏见相比，知识蒸馏使学生Transformer的性能与各种归纳偏见教师相似；
本研究开发了一种cross-inductive bias ViT（CiT），其性能优于相同架构的所有现有ViT。本研究中使用的超轻量级教师的DeiTi和DeiT-S参数分别只有20%和50%。

知识蒸馏方法：Convolution +involution归纳偏见知识蒸馏。

损失函数：KL散度+交叉熵。网络整体结构如图9所示：

Tiny-ViT

Kan Wu等人[49]提出了一种不同的解决方案，称为Tiny-ViT，与之前提到的方法相比，大多数时间集中在微调蒸馏上。他们观察到，小的预训练模型可以受益于使用大量预训练数据从大到小预训练模型传递的知识。特别是，作者在预训练期间使用蒸馏来传递知识。对于大型教师模型，可以通过预先稀疏和存储logits来节省内存和计算开销。一个具有计算和参数约束的大型预训练模型被自动缩小，以生产tiny的学生Transformer。大量实验证明了Tiny-ViT的有效性。它仅使用21M个参数就达到了84.8%的top-1精度，与Swin-B相比，没有使用Swin-B那么多的参数。Tiny-ViT还通过提高图像分辨率实现了86.5%的准确度，仅用11%的参数略微超过Swin-L的准确度。

论文[49]中提出的工作侧重于预处理蒸馏，使小模型更能从大模型中学习，并将这些技能转移到下游任务。

预训练蒸馏方法的关键挑战是，在通过大型教师模型传递训练数据而不是训练一个小的目标群体时浪费了大量的计算资源。蒸馏方法效率低且成本高。大规模教师还可能消耗大量GPU内存，从而降低目标学生的训练速度。

作者提出了一个框架[49]，允许快速预处理蒸馏来解决这个问题。教师的预测和数据扩充由作者预先存储。因此，Training通过重用存储的信息简化了蒸馏过程，因此大型教师模型不需要那么多的内存和计算。作者只需要从存储的文件中恢复扩增信息和教师预测，并优化学生模型蒸馏的交叉熵目标函数。

主要观察：

由于作者仅使用教师模型生成的软标签进行训练，因此所提出的框架是无标签的，即不需要GT；
因此，它可以利用大量现成的无标签网络数据进行大规模预处理；
在实践中，这样的策略是可行的，因为软标签携带了足够的区分信息用于分类，包括类别关系，并且足够准确，可以使用；
然而，带有GT的蒸馏会导致性能轻微下降。

Attention Probe-based Distillation Method

[50]提出了一种新的解决方案，称为“Attention-Probe”，该方案基于由于道德和遗产问题而无法获得数据的真实分布的考虑。由于更高的计算要求，ViT与资源受限的设备不兼容。使用原始训练数据压缩它们可能是可能的，但隐私和传输问题可能会阻止这一点。野外许多未标记的数据为压缩卷积神经网络（CNNs）提供了另一种范例。然而，由于CNN和ViT在模型结构和计算机制上的显著差异，ViT的类似范例仍然是一个悬而未决的问题。本文旨在使用野外采集的两个阶段的未标记数据压缩ViT。第一步是设计一种从野外选择有价值数据的工具，即Attention-Probe。第二步使用所选数据使用探针知识蒸馏算法来训练轻量级学生转换器，该算法最大化了重型教师模型和轻型学生模型在输出和中间特征方面的相似性。Attention-Probe如图11所示：

知识蒸馏方法：Probe distillation + Knowledge distillation。

主要观察：

无数据情况下的动机是缺乏监督信息，因为收集的数据没有标记；
由于学生输出和GT之间缺乏交叉熵，这不可避免地导致信息丢失和准确性下降；
为了弥补监督信息的损失，作者考虑了从预先训练的教师中获得的中间信息；
除了输出，中间层包含更多的嵌入，使学生能够获取更多信息。

Data-Efficient Image Transformers Distillation via Attention

Touvron等人[51]提出了一种新技术，名为通过注意力训练数据高效图像Transformer蒸馏。作者提出了一种基于特定于Transformer的蒸馏令牌的师生策略。蒸馏令牌确保学生通过注意力从老师那里学习，通常是从ConvoNet老师那里学习。在ImageNet上，学习到的Transformer以最先进的技术和类似的其他任务表现出竞争力（85.2%的top-1精度）。蒸馏过程由一个蒸馏令牌组成，该令牌的作用与类别令牌相同，但其目的是复制老师估计的标签。作为注意力的结果，两个令牌通过该机制在Transformer中交互。在很大程度上，这种特定于Transformer的策略优于朴素蒸馏。通过这种方式，作者[51]表明，缺少卷积层的神经网络模型可以在没有外部数据的情况下，与最先进的基准数据集（如ImageNet）相比，获得可比的结果。他们[51]还观察到，与ResNet-50和ResNet-18相比，他们的两个新模型DeiT-S和DeiTi以更少的计算需求实现了更好的性能。

知识蒸馏方法：利用从ConvoNet老师那里预先学到的蒸馏令牌，通过注意力进行蒸馏。使用真实标签和教师预测以更高的分辨率微调模型。

损失函数：KL散度和交叉熵。

Unified Visual Transformer Compression

作者Shixinng Yu等人在本文[52]中提出了一个称为统一视觉Transformer压缩（UVC）的统一框架，该框架无缝集成了修剪、层跳过和知识蒸馏。在蒸馏损失下，作者开发了一个端到端优化框架，旨在共同学习模型权重、分层修剪比率和跳过配置。然后使用原始对偶算法来解决优化问题。本文[52]的作者使用ImageNet数据集测试了几种ViT变体，包括DeiT和T2T ViT主干，他们的方法始终优于以前的竞争对手。DeiT Tiny的FLOP降低到原始FLOP的50%，而不影响精度。使用这一提议的统一框架，他们的目标是同时修剪与层级跳过相关的每个层的头部数量和维度。根据我们在这项研究中的知识，他们没有将缩减的范围扩展到其他维度，例如输入补丁的数量或令牌的大小。然而，使用这个统一框架，这些部分也可以很容易地捆绑在一起。

主要观察：

仅执行跳过连接操作将导致高度不稳定。由于大型架构更改（添加或删除一个整体块），目标值在优化过程中波动很大；
此外，仅使用跳跃操作，精度显著降低，例如，在DeiT Tiny上为4%；
由于其更细粒度的操作，仅block方法中的修剪比跳过操作执行得更好；
然而，该方法仍然落后于所提出的联合UVC方法，因为后者还先验地消除了block级冗余，这一点最近在微调Transformer中广泛存在。

Dear-KD Distillation Method

作者Xiang Chen等人在本研究[53]中，考虑了数据的真实数据分布不可用的情况，称为Dear-KD。Transformer强大的自注意力建模能力使其成为计算机视觉应用的理想选择。尽管如此，Transformer的出色性能在很大程度上依赖于巨大的训练图像。因此，迫切需要开发一种数据高效的Transformer解决方案。在这项研究[53]中，作者提出了一种早期的知识蒸馏方法。

拟议的框架称为Dear-KD框架，旨在提高Transformer所需的数据效率。Dear-KD，作为一个两阶段框架，从CNN的早期中间层中提炼出了第一阶段的偏差，并在第二阶段没有提炼的情况下通过训练充分发挥了Transformer的作用。为了进一步减少与完整数据对应的性能差距，作者[53]提出了一种基于Deep Inversion的边界保持内散度损失。他们展示了Dear KD在ImageNet、部分ImageNet、无数据设置和其他下游任务上优于其基线和最先进的方法。所提出的网络的早期层中的卷积已被证明显著提高了性能。由于局部模式（如纹理）在模型的早期层中被很好地捕获，因此，有必要向早期Transformer提供关于归纳偏置的明确反馈，以提高数据效率。然而，当Transformer进入后期阶段时，该指南限制了其充分表达自己的能力。因此，Transformer在第二阶段得到充分控制，以充分表达其建模能力。他们使用完整的ImageNet以可比或更少的计算实现了最先进的图像分类性能。令人印象深刻的是，观察到Dear-KD如何以仅50%的数据胜过所有ImageNet数据训练的基线Transformer。最后，基于DeiT-Ti的DearKD在ImageNet上实现了71.2%，仅比完整的ImageNet DearKD低1.0%。

主要观察：

由于存储在特征统计中的信息有限，DF-DearKD无法处理与人类相关的类，尽管能够生成高质量的图像；
此外，由于研究不使用真实图像，生成许多样本需要大量时间和计算；
使用生成的样本进行的训练仍然需要在性能上与使用真实图像进行的训练相当。

整体结构如下所示：

Pipiline如下所示：

Cross Architecture Distillation Method

上面讨论的大多数解决方案都考虑了用于蒸馏目的的同源结构，这有时只是一个最佳解决方案。Yufan Liu等人[54]提出了跨体系结构知识蒸馏方法，以消除异构体系结构的差距。由于Transformer卓越的性能和理解全局关系的能力，Transformer受到了极大的关注。CNN可用于从Transformer中提取补充知识以获得更高的性能。在大多数知识蒸馏方法中，使用同源架构蒸馏，例如从CNN到CNN的知识蒸馏。在跨架构场景中使用它们可能不合适，比如Transformer和CNN之间的场景。

研究[54]的目的是提出一种新的方法来提取跨架构之间的知识。当使用Transformer将知识传输到学生CNN网络时，知识传输能力显著提高。在Transformer教师模型中，学生学习了局部空间特征（来自CNN模型）和互补的全局特征（来自于CNN模型）。设计了两个projectors，一个用于部分交叉注意力（PCA），另一个用于分组线性（GL）。这两个projectors将学生的中间特征对齐到两个不同的特征空间中，从而使提取知识比直接模仿老师的输出更容易。使用PCA projectors，将学生特征映射到教师的Transformer注意力空间。一位Transformer老师用这个projectors向学生解释全局关系是如何运作的。为了创建Transformer特征空间，使用GL projectors将每个学生的特征映射到Transformer特征区域。因此，它有助于缓解教师和学生形成特征的方式之间的差异。

此外，作者提出了一种鲁棒的多视图训练方案，以增强框架的稳定性和鲁棒性。实验结果表明，与14种最先进的方法相比，所提出的方法在大数据集和小数据集上的表现更好。

论文[54]还提出了一种鲁棒的对抗性交叉视图训练方案，以减轻跨架构多样性造成的不稳定性。代表多个视图的示例对于中断学生网络是必要的。他们构建了一个对抗性判别器，可以用来区分教师和令人不安的学生特征。相比之下，教学生混淆鉴别器。学生在经历融合后能够变得更加稳定和强健。

主要观察：

在KD过程中，两个projector在ImageNet上获得了更好的性能；
结果，PCA和GL projector显著提高了CNN特征的质量，尽管它们在推理过程中被去除了；
余弦相似性大幅增加，甚至高于同源结构；
因此，精心设计的KD方法可以在Transformer和CNN之间实现更高的知识转移。

对比分析

在对视觉Transformer中的各种知识蒸馏方法进行了全面的文献调查之后，表1中列出了在不同的知识蒸馏方案下使用不同架构的教师和学生的方法总结。表1对不同蒸馏方案下的不同蒸馏方法进行了分类，并以不同的颜色进行了清晰的突出显示和颜色编码。此外，在本节将讨论使用上述方法以及下表中提到的各种蒸馏损失函数。使用的各种损失函数如下所述：

从上述比较分析表中可以明显看出，ViT中不同KD方法的比较。所有方法都表现良好，显著减少了参数数量和FLOPS。在进行全面研究后，观察到使用上述KD方法在ViT中实现良好压缩比的同时，性能没有显著下降。在所讨论的所有KD方法中，预处理蒸馏在参数降低方面优于所有方法，并比其他微调蒸馏方法获得更好的准确率。Tiny Vit实现了82.1%的准确率，比基线Vit模型更轻，只有28M个参数，与基线模型相比，准确率仅下降了1%。与其他最先进的技术相比，具有协同建议和基于注意力的蒸馏方法的跨架构蒸馏也表现良好。

研究结论和局限性

ViT在CV任务中表现出有效性，削弱了CNNs在CV领域的主导地位，因此获得了相当大的关注。ViT在多个基准测试中取得了重大进展，并取得了与最先进的CNN方法相当甚至更好的结果。ViT的一些关键技术仍需改进，以应对ViT在CV任务中面临的复杂挑战。ViT模型的优势之一是其能够扩展到高参数复杂性。然而，这种显著的特性允许训练非常大的模型，但会导致高的训练和推理成本。这些模型需要巨大的计算资源，这是昂贵的，并且会带来巨大的代价。此外，这些大型模型的实际应用需要严格的压缩。本文详细讨论了ViT以及ViT在CV任务中面临的开放挑战。此外，本文还深入了解了使用KD的ViT压缩，以使这些大型模型计算和资源高效。

未来方向

诚然，自注意力允许我们对完整的图像上下文信息进行建模，但它与高内存和计算成本相关。为了捕获局部和全局上下文像素信息，注意力机制产生了O（N2）的巨大时间复杂性，其中N表示几个输入特征图。必须使用交叉注意力模块和知识蒸馏来生成交叉路径上的稀疏注意力图，以减少计算负担。它使用的GPU内存是non-local block的11倍；
作为一个独立的计算原语，它提供了有竞争力的结果，但当与卷积神经网络结合时，它产生了最好的结果。可以探索和使用注意力增强，从而在不同架构中提高图像分类和目标检测的系统性能；
可视化和解释Transformer仍然是一个未解决的问题，需要获得空间精确的激活特定可视化的方法。随着这方面的进展，可以更好地理解Transformer模型，也可以诊断决策过程中的错误行为和偏见。它还可以促进新颖架构的设计，使我们能够避免偏见；
在大型特征图的情况下，由于这些方法计算特征空间位置之间的相关性，上述方法可能变得难以处理。因此，在以更高分辨率进行微调时，这仍然是一个有待解决的挑战；
从上面的研究中，有三个主要原因是放大效果更好：（a）大模型（具有更多参数）可以从更多的训练数据中受益，而小模型可以快速稳定。他们无法从更多的训练样本中受益。因此，大规模模型可以进一步提高其表征学习能力；
最近被称为Restormer的Transformer模型认为，如果Transformer架构被放大，它应该是一个更广泛或更深入的设计。虽然广泛的模型可以通过并行化减少计算时间，但更深层次的架构可以提供更好的性能；
在上述许多研究中，相对位置编码被认为优于绝对位置编码。然而，造成这种差异的原因仍在确定之中。因此，需要系统地研究和理解不同位置编码方法的优点和缺点。