TransNeXt: Robust Foveal Visual Perception for Vision Transformers 为视觉Transformer设计的鲁棒中央凹视觉感知模型

wx45840973

已于 2024-09-21 20:13:08 修改

阅读量879

点赞数 20

分类专栏：深度学习 ViT 文章标签： transformer 深度学习人工智能

于 2024-09-21 18:49:17 首次发布

本文链接：https://blog.csdn.net/weixin_45840973/article/details/142324060

版权

深度学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

ViT

2 篇文章 0 订阅

订阅专栏

题目解释：

“Foveal”指的是人眼视网膜的中央凹区域，那里是视觉最敏锐的部分。论文通过模仿人类中央凹视觉的机制，使得模型在视觉感知上更自然、更稳定，从而提高了模型的鲁棒性（即在面对各种挑战时的稳定性和抗干扰能力）

摘要

主要介绍了TransNeXt模型的设计思想和优势:

1 问题背景：

由于残差连接的层深退化效应（depth degradation effect），现有的许多高效视觉Transformer（ViT）模型在依赖堆叠层进行信息交换时，往往无法形成足够的信息混合，导致不自然的视觉感知。

2 提出的解决方案：

To address this issue, in this paper, we propose Aggregated Attention, a biomimetic design-based token mixer that

聚合注意力（Aggregated Attention）：模拟了生物学上的中央凹视觉（foveal vision）和眼球连续运动，允许特征图上的每个token拥有全局感知能力。“此外，我们引入了可学习的tokens（通过训练学习到的额外信息），它们与传统的queries（查询）和keys（键）进行交互，这进一步丰富了生成亲和矩阵（亲和矩阵是用于表示queries和keys之间关系的矩阵，通常是通过计算queries和keys之间的相似性来生成的）的方式，而不仅仅依赖于queries和keys之间的相似性（那样从输入中直接生成）。”这样可以避免依赖层叠信息交换带来的问题，解决了层深退化，并获得更自然的视觉感知效果。

卷积GLU（Convolutional GLU）：这是一种新的通道混合器，结合了GLU（门控线性单元）和SE（Squeeze-and-Excitation）机制，使每个 token 能够基于其最近邻图像特征进行通道关注，增强了局部建模能力和模型的鲁棒性。

3 模型性能：

我们结合聚合注意力和卷积 GLU 创建一个名为 TransNeXt 的新视觉主干。实验表明，TransNeXt在多种的模型规模across multiple model sizes下都达到了最先进的性能。在ImageNet-1K数据集上，TransNeXt-Tiny的准确率达到84.0%（仅在ImageNet-1K上预训练），且参数量比ConvNeXt-B减少了69%。TransNeXt-Base在更高分辨率下的表现也非常优秀，分别在COCO目标检测、ADE20K语义分割等任务中取得了出色的结果。

我们的 TransNeXt-Base 在 384^2 分辨率下实现了 86.2% 的 ImageNet 准确率和 61.6% 的 ImageNet-A 准确率，COCO 目标检测 mAP 为 57.1，ADE20K 语义分割 mIoU 为 54.7。

（在COCO目标检测中，它使用DINO检测头获得了55.1的盒子mAP，优于在384×2分辨率上预训练的ConvNeXt-L高出1.7。我们的TransNeXt-Small/Base在仅仅5个时期的384×2分辨率微调后，实现了86.0%/86.2%的ImageNet准确率，超过了之前的最先进MaxViT-Base在30个时期微调的0.3%/0.5%。此外，在384×2分辨率上对极具挑战性的ImageNet-A测试集进行评估时，我们的TransNeXt-Small/Base模型实现了58.3%/61.6%的令人印象深刻的top-1准确率，明显优于ConvNeXt-L的7.6%/10.9%，为ImageNet-1K监督模型设定了新的鲁棒性基准。
原文链接：https://blog.csdn.net/qq_40734883/article/details/136977016）

总结来说，Introduction部分说明了ViT模型当前在信息混合和计算复杂度方面的不足，介绍了通过仿生设计改进模型感知能力和鲁棒性的解决方案，并展示了TransNeXt模型的创新点。

1. Introduction

1. ViT模型的局限性：

The ViT model comprises two key components: the self-attention layer (token mixer) and the MLP layer (channel mixer).自注意力机制通过计算queries和keys之间的相似性生成亲和矩阵，实现全局信息的聚合。自注意力机制计算全局亲和矩阵的二次复杂度和高内存消耗，限制了它在高分辨率图像中的应用。（在整个图像范围内，计算特征之间的关系）

2. 稀疏注意力机制的提出：

为了减轻自注意力机制的计算和内存负担，先前的研究提出了多种稀疏注意力机制，如局部注意力（local attention），它限制了注意力的感知范围在特征图的局部窗口内。然而，局部注意力的感受野有限，需要通过不同类型的token mixer交替堆叠来实现跨窗口的信息交换，导致模型信息混合不足。（模型只在图像的局部区域内计算特征之间的关系，而不是在整个图像范围内。带来了一个问题：模型只能捕捉到局部区域的特征，而无法获得全局信息。）
另一种方法是对attention的keys和values进行空间降采样（如池化或网格采样），虽然减少了计算量，但也牺牲了查询对特征图的精细感知能力。

最近的研究 [5, 43] 将空间下采样注意力和局部注意力交替叠加，取得了值得称赞的性能结果。最近的研究和实验表明，带有残差块（residual blocks）的深度网络表现得像一组较浅的网络的集合。这意味着通过堆叠块（如残差块）来实现层间信息交换的效果，可能没有预期的那么有效。

3. 与生物视觉的对比：

一方面, 生物视觉系统具有较高的视觉焦点（中央凹）感知能力（生物视觉对视觉焦点周围的特征具有较高的敏锐度，而对远处的特征具有较低的敏锐度），并且在眼球移动时，像素点的感知特性保持一致（此外，随着眼球的移动，生物视觉的这种特性对于图像中任何位置的像素都保持一致）。另一方面，这种像素级平移等效性与局部注意力（based on window partitioning, tokens at the window edge and center are not treated equivalently）或空间降采样注意力机制有显著差异。

4. 深层网络中的信息交换问题：

研究表明，使用残差块的深层网络在层间信息交换上存在局限性，堆叠网络层可能无法实现理想的跨层信息融合。堆叠窗口分区带来的信息分割问题会导致视觉感知的不自然。图2

图 2. 使用第 3 阶段的输出，对流行的视觉信息聚合机制、我们提出的方法和生物视觉系统（左）进行比较，以及我们的方法和流行的骨干网络之间的有效感受野 [35] 的可视化比较（正确的）。每个 ERF 图像都是通过对 ImageNet-1K 验证集中的 5000 多个 224^2 大小的图像进行平均而生成的。

在Figure 2中，论文对比了几种常见的视觉信息聚合机制、本文提出的方法，以及生物视觉系统。图2的解释如下：

左侧图：
- 展示了几种流行的视觉信息聚合机制，包括：
  - Local Attention（局部注意力）：这种方法限制注意力在特定的局部窗口范围内，感知范围较小，不能实现全局感知。
  - Sliding Window Attention（滑动窗口注意力）：它通过滑动窗口扩大感知范围，但仍存在局部限制。
  - Pooling Attention（池化注意力）：通过对特征进行空间降采样来减少计算复杂度，但这种方法牺牲了查询点的精细感知能力。
  - Pixel-focused Attention（本文方法）：模仿生物视觉的中央凹机制，允许像素级别的精细感知，同时保持全局感知能力。
- 生物视觉系统：这个图还展示了生物学上眼睛的工作方式——中央凹能够对视觉焦点附近的特征有更高的感知精度，而对于远处的特征则感知精度较低。这种视觉特性具有像素级的平移等效性，意味着无论视觉焦点如何移动，眼睛的感知机制保持一致。
右侧图：
- 展示了不同骨干网络在第三阶段输出的**有效感受野（Effective Receptive Field, ERF）**的比较。ERF显示的是网络的某个位置能够感知到的输入区域。
- TransNeXt的ERF：TransNeXt模型展示了更均匀、更自然的感受野，相比于其他网络模型，TransNeXt能够更好地模拟生物视觉的中央凹视觉特性，从而实现对全局和局部特征的更自然的感知。

总结：图2的左侧展示了生物视觉系统和现有方法的差异，右侧则通过ERF的可视化展示了本文方法（TransNeXt）如何更有效地模仿生物视觉系统的感知特性，从而提升视觉Transformer的表现。

5. 论文贡献：

initially introduce提出了Pixel-focused Attention（像素聚焦注意力，双路径设计（dual-path design）：模仿生物视觉，通过细粒度的局部感知和粗粒度的全局感知结合，使得每个像素能够感知到整个图像（每个像素（query）都可以同时获取到局部细节和全局信息，从而实现全局感知），并模拟眼球的连续运动（这种方法在每个像素的基础上运行、逐像素操作的，每个像素都能够在不同粒度的特征上进行注意力计算）。

In one path, each query has fine-grained attention to its nearest neighbor features, while in the other path, each query has coarse-grained attention to spatial downsampled features（第一条路径：在这条路径中，每个query（查询）会对其最近邻特征进行细粒度的注意力计算。这意味着模型可以对局部区域的细节进行精确感知，就像人眼在注视某个焦点时能感知到周围的细微特征一样。第二条路径：在另一条路径中，每个query会对经过空间降采样的全局特征进行粗粒度的注意力计算。也就是说，虽然降采样会降低特征的分辨率，但它提供了全局的感知能力，类似于人眼在注视焦点时也能够感知到更远处的大范围特征）

提出了聚合注意力（Aggregated Attention，Aggregated Pixel-focused Attention）：引入了多个非传统的QKV注意力机制，通过使用可学习的queries和keys进一步丰富亲和矩阵的生成方式。（论文引入了查询嵌入（query embedding）和位置注意力机制（positional attention mechanisms））
设计了卷积GLU（Convolutional GLU Gated Linear Unit（GLU））：一种结合局部特征和通道注意力的新型通道混合器，增强了模型的鲁棒性。
提出了长度缩放的余弦注意力（length-scaled cosine attention），它可以增强现有注意力机制对多尺度输入的外推能力。这一机制使得模型在处理不同尺度的图像时能够保持更好的性能。
引入了TransNeXt模型：通过结合聚合注意力和卷积GLU，构建了一个强大的视觉骨干网络，能够在图像分类、目标检测、语义分割等任务中取得最先进的性能。

2. Related Work

Vision Transformers（ViTs）：
- 视觉Transformer的基础是最早由ViT模型引入的，ViT通过将图像分割成不重叠的patches（小块），并将它们线性投影为token序列，然后通过Transformer编码器进行处理。
- 当有大规模的预训练数据或经过精心设计的训练策略时，ViT模型在图像分类及其他下游任务中表现出色，甚至超过了传统的卷积神经网络（CNN）。
非QKV注意力机制的变体：
- 在自注意力机制中，亲和矩阵是通过queries和keys之间的相似性生成的。最近的研究探索了使用可学习tokens来替代原始的queries或keys，以生成动态的亲和矩阵。
- 例如，Involution和VOLO模型使用可学习的tokens来替换原始的keys，而QnA模型使用可学习的queries来实现动态亲和矩阵的生成。leading to dynamic affinity matrices that are only correlated with keys.
仿生视觉建模：
- 人类视觉在视觉焦点周围的特征感知精度更高，距离视觉焦点越远的特征感知精度则越低。许多机器视觉模型也开始尝试将这种仿生设计融入其中。
- 例如，Focal Transformer基于这一概念设计了视觉注意力，但它仍然基于窗口分区方式，无法自然地模拟眼球的连续运动。本文工作旨在解决这些问题。

总结来说，Related Work部分首先介绍了视觉Transformer的背景及其演变，然后讨论了非QKV注意力机制的变体，并进一步探讨了仿生视觉系统的研究进展。通过这些相关工作，本文指出了现有模型在模拟生物视觉方面的局限性，强调了引入更自然的视觉感知机制的必要性。

3. Method

3.1. Aggregated Pixel-focused Attention

3.1.1 Pixel-focused Attention

重点是如何通过双路径设计结合局部和全局特征信息来增强模型的视觉感知能力。

因此，池化操作通过缩小特征图、扩大每个特征点的感受野，使得池化后的特征具有全局感受野，能够捕捉到图像的全局信息。（不仅在减少数据量的同时还在逐步聚合信息）

（1）

（2）拼接局部和全局的相似度得分并使用Softmax操作的目的是为了有效地结合局部和全局信息，从而生成一个统一的注意力权重。

局部和全局特征的结合：
- 局部特征（通过滑动窗口提取）能够捕捉细粒度的、局部的像素之间的关系。这是模拟生物视觉系统中对视觉焦点附近区域的高分辨率感知。
- 全局特征（通过池化操作提取）能够提供图像的宏观、全局视角，补充局部特征的不足。
拼接操作的意义：
- 拼接（Concat）局部和全局的相似度得分意味着我们将这两种不同层次的信息进行组合。通过将局部和全局信息放在同一个Softmax操作中计算，可以确保模型在同一权重空间内进行竞争性选择，从而避免局部或全局信息独占主导地位。
Softmax操作的目的：
- Softmax将局部和全局特征的相似度得分归一化为概率分布，并为每个特征分配权重。这个过程可以理解为在局部细节和全局感知之间找到一个平衡点，从而确保最终的注意力权重能够同时考虑局部的精细信息和全局的上下文。

统一 Softmax 就像把局部和全局特征放到同一个竞争场合，谁更重要谁得到更多的关注。选择统一 Softmax 再 Split 是为了让模型能更好地权衡局部和全局信息，使其在复杂的多尺度任务中表现得更好。

增强模型的视觉感知能力。

Padding mask 是这篇论文中的一个重要机制，用来处理在滑动窗口路径（sliding window path）中出现的边界问题。具体来说，Padding mask 解决的是当滑动窗口跨越图像边缘时，模型如何处理这些窗口外部的无效像素。

解释 Padding Mask 的关键点：

边界问题：
- 当使用滑动窗口在图像上滑动时，位于图像边缘的像素没有足够的邻居。为了保持窗口大小一致，通常会在边界外部**填充（padding）**零值或其他默认值，这称为 zero-padding。
- 但是，填充的这些零值（或其他默认值）并不包含真实的图像信息。如果这些填充值参与到相似度计算中，会导致注意力机制在这些无效位置上也分配一定的注意力权重，从而影响结果的准确性。
Padding Mask 的作用：
- Padding Mask 的作用是为这些填充的无效像素提供一个屏蔽机制，确保这些无效区域不影响相似度计算和注意力分配。
- 在具体实现中，Padding Mask 会将填充区域的相似度得分设置为一个非常小的值（通常是负无穷大 −∞-\infty−∞），这样经过 Softmax 归一化后，这些填充位置的权重会被置为零，不会对最终结果产生影响。
论文中的处理方式：
- 在滑动窗口路径中，作者提到边界上的像素不可避免地会计算到带有零填充的特征（即窗口外部的填充值）。为了防止这些无效区域对 Softmax 结果产生影响，作者引入了 Padding Mask，将这些填充值的相似度结果设置为 −∞，确保它们在 Softmax 中的权重为零。
具体操作：
- 在注意力机制中，Padding Mask 的应用确保滑动窗口中真正的像素（那些包含有效信息的像素）得到适当的注意力权重，而那些由于填充导致的无效像素不会影响计算。这个机制在图像边缘的像素尤其重要，因为边缘像素无法像内部像素那样拥有完整的邻居信息。

总结：

Padding Mask 的作用是在滑动窗口路径中，当遇到边界问题时，通过屏蔽填充值（zero-padding）的影响，避免这些无效的填充值参与注意力权重的计算。具体来说，Padding Mask 会将这些填充值的相似度得分设置为负无穷 −∞，使得它们在 Softmax 归一化后不会分配到任何权重，从而保证模型只专注于有效的图像信息。这对于确保滑动窗口机制在图像边缘的正确运行非常关键

3.1.2 Aggregating Diverse Attentions in a Single Mixer

这一部分介绍了在一个混合器中聚合多种不同类型的注意力机制，主要包括可学习的查询嵌入（Query Embedding）和位置注意力机制（Positional Attention Mechanism），并最终提出了聚合注意力（Aggregated Attention）。

视觉问答（VQA）任务：许多视觉语言模型利用来自文本模态的Query，对来自视觉模态的Key进行交叉注意力，从而实现跨模态信息聚合。此外，已经证明在微调这些多模态模型以适应特定子任务时，合并并优化可学习的prefixQueryToken是有效且高效的。

将可学习的QueryToken集成到Backbone网络的注意力机制中（不同于传统的QKV注意力，它不使用输入中的Query，而是根据当前任务学习一个Query来执行交叉注意力），作者将这种方法归类为 可学习的Key-Value（LKV）注意力，并与QKV注意力相平行。作者发现，将传统QKV注意力中所有QueryToken的Query嵌入（QE）添加起来，可以实现与Query无关的信息聚合效果，且额外开销可以忽略不计。作者只需要修改方程如下：

那QE是什么？怎么设计呢？

Positional attention:

An alternative approach to information aggregation is the use of a set of learnable keys that interact with queries originating from the input to obtain attention weights, i.e., Query-Learnable-Value (QLV) attention.

位置注意力：信息聚合的另一种替代方法是使用一组可学习的Key，这些Key与来自输入的Query相互作用以获得注意力权重，即Query-Learnable-Value（QLV）注意力。这种方法与传统的QKV注意力不同，因为它破坏了Key和Value之间的一对一对应关系，导致为当前Query学习更多的隐式相对位置信息。因此，它通常与滑动窗口相结合在视觉任务中使用。与静态的亲和矩阵（如卷积或相对位置偏差）不同，这种通过数据驱动建模方法生成的亲和矩阵考虑了当前Query的影响，并可以基于它动态适应。

作者观察到, 这种数据驱动建模方法比静态相对位置偏差更具鲁棒性, 并且可以进一步增强局部建模能力。利用这一特点, 作者在每个注意力头中引入一组可学习的Token（它是模型在训练过程中学习得到的变量，这些变量的作用是帮助模型在注意力机制中更好地理解像素之间的关系，尤其是位置关系。） , 允许这些Token与Query相互作用以获得额外的动态位置偏差并将其添加到特征上。使用这种增强只需要增加额外的计算开销。作者只需要修改方程 4 如下:

代码中这两个可学习tokens变量初始值怎么确定呢？？？？

3.1.3 Overcoming Multi-scale Image Input 克服多尺度图像输入

（1）Length-scaled cosine attention:

长度缩放余弦注意力：与缩放点积注意力不同，长度缩放余弦注意力使用了余弦相似度，已被观察到可以生成更适中的注意力权重，并有效地增强了大型视觉模型的训练稳定性。长度缩放余弦注意力通常将一个额外的可学习系数 λ 乘到Query和Key的余弦相似度结果上，使得注意力机制可以有效地忽略不重要的Token。

总结：

归一化前：点积注意力会受到向量长度（模）的影响，较大的向量模会导致较大的注意力权重，容易导致注意力向某些位置倾斜。
归一化后（余弦相似度）：通过归一化处理，注意力权重只依赖于向量的方向（即相似度），解决了模不平衡的问题。
长度缩放因子：随着序列长度增加，引入 log⁡N\log NlogN 来调整注意力权重，确保长序列下权重不会过于分散，使得模型在多尺度输入下更加稳定。通过这些调整，ViT 模型能够更好地处理不同分辨率的图像，同时保持注意力机制在不同 tokens 数量下的稳定性。

最近的研究发现，随着输入序列长度的增加，注意力输出的置信度会降低。因此，注意力机制的缩放因子应该与输入序列长度相关。[40]进一步提出，注意力的设计应该表现出熵不变性，以促进更好地泛化到未知长度。提供了一个在查询和键被近似为具有大小为 $\sqrt{d}$ 的向量时，对序列长度为 n 的缩放点积注意力的熵的估计：

对于余弦相似性，将查询和键定义为分别沿其头维度应用L2归一化的Q和K，它们的大小均为1。为了保持熵不变性并忽略常数项，我们设置。鉴于公式8仅仅是一个估计，设置，其中τ 是一个可学习变量，为每个注意力头初始化为1/0.24。我们提出长度缩放余弦注意力如下：

这里，N 表示每个查询query交互的有效键key的数量，不包括掩码tokens（是Padding mask ????）的数量。具体来说，当应用于Transformer Decoder[44]时，被因果掩码掩蔽的未来标记不应计入N 中。在以像素为中心的注意力的情况下，N 计算为 N(i,j) = ∥ρ(i, j)∥ + ∥σ(X)∥ − ∥μ(i, j)∥ ，其中 μ(i, j) 表示位置 (i, j) 处的填充掩码tokens集。

(2) Position bias

克服多尺度图像输入的位置偏差

为进一步增强针对多尺度图像输入的pixel-focused attention的外推能力，文中采用不同的方法在两个路径上计算B(i,j)∼ρ(i,j)和B ( i , j ) ∼ σ ( X ) 和B(i,j)∼σ(X)。在池化特征路径上，使用对数间隔连续位置偏差（log-CPB）[41]，一个包含ReLU [47]的2层MLP来从Q(i,j)和Kσ(X)之间的空间相对坐标Δ(i,j)∼σ(X)计算B(i,j)∼σ(X)。在滑动窗口路径上，直接使用可学习的B(i,j)∼ρ(i,j)（由于滑动窗口大小是固定的（即窗口的宽度和高度在整个过程中保持不变），模型可以为窗口内每一对相邻像素之间学习一个固定的偏置）。一方面，这是因为滑动窗口的大小是固定的，不需要通过log-CPB对未知相对位置偏差进行外推，从而节省计算资源。另一方面，作者观察到使用log-CPB计算B(i,j)∼ρ(i,j)会导致性能下降。文中认为这是因为Δ(i,j)∼σ(X)表示细粒度标记和粗粒度标记之间的空间相对坐标，而)Δ(i,j)∼ρ(i,j)表示细粒度标记之间的空间相对坐标，它们的数值含义不同。
(3) 聚合注意力

聚合注意力：通过应用上述各种注意力聚合方法和增强多尺度输入外推能力的技术，我们提出了像素聚焦注意力的增强版本，称为聚合像素聚焦注意力，我们简称为聚合注意力（AA））。可以描述如下：

论文中的聚合注意力（Aggregated Attention，AA）通过结合多种注意力聚合方法，旨在增强像素聚焦注意力（Pixel-Focused Attention，PFA）在多尺度图像输入中的外推能力。具体来说，公式 (10) 到 (14) 描述了这种聚合机制。

公式 (10) 和 (11) 展示了如何通过将增强后的查询（Query）和可学习嵌入（Query Embedding，QE）与对应的键（Key）进行交互，分别计算来自滑动窗口路径和池化路径的注意力权重。

公式 (11) 介绍了位置偏置（Position Bias）的处理。这里将滑动窗口路径和池化路径中的相对坐标偏置结合起来，通过拼接log-CPB（log-spaced continuous position bias）和空间相对坐标∆来获得最终的B(i,j)。

公式 (12) 是核心注意力计算过程，通过对来自两个路径的S(i,j)进行拼接，再结合位置偏置B(i,j)，最终应用softmax计算注意力权重。此处的τ logN*起到了平衡不同路径注意力权重的作用。

公式 (13) 则描述了将注意力权重拆分为对应于滑动窗口路径和池化路径的部分。

公式 (14) 最终通过将这两部分的注意力权重分别作用到各自的值（Value）上，得到最终的聚合注意力输出。

聚合注意力的设计思想在于，它不仅仅依赖于传统的QKV机制，还引入了不同的注意力聚合方式（例如QLV注意力、LKV注意力），从而在像素聚焦注意力中实现了多种注意力机制的融合。这种设计带来了更强的外推能力和更高的计算效率。

3.2. Convolutional GLU卷积门控线性单元

3.2.1 Motivation

（1）Gated channel attention in ViT era: ViT时代的门控通道注意力

1 以前的工作，由Squeeze-and-Excitation（SE）机制代表，首先将通道注意力引入计算机视觉领域，该机制使用一个带有激活函数的分枝来控制网络输出。（它的核心思想是通过一个门控机制对网络输出进行加权，让网络决定某些通道的输出是否应该被“关闭”或者保留）在门控通道注意力中，门控分支具有比value分支更大的决策权，最终决定相应的输出元素是否为零。从这个角度来看，SE机制巧妙地使用全局平均池化后的特征作为门控分支的输入（即它能够感知到全局的信息），实现更好的决策，同时解决了CNN结构中感受野不足的问题。然而，在ViT时代，全局感受野不再是稀缺的。

2 SE机制的局限性：用self-attention表示的各种全局token混合器已经实现了比全局平均池化更高质量的全局信息聚合。这使得SE机制使用的全局池化方法表现出一些缺陷，例如该方法使特征图上的所有Token共享相同的门控信号，导致其通道注意力缺乏灵活性并过于粗糙（缺乏细粒度的通道注意力）。尽管如此，ViT结构缺乏通道注意力（传统的 ViT 是基于 Transformer 结构，主要依靠多头自注意力机制来学习特征之间的关系，但这种机制大多集中在空间上的信息交互。许多研究表明，ViT 对输入特征的处理非常依赖于通道之间的相关性，而不仅仅是空间维度上的特征：通道维度上的特征提取和交互也同样重要）。最近的研究发现，将SE机制集成到通道混合器中可以有效提高模型鲁棒性，如图4所示。

3 引入卷积（Convolution）在ViT中的作用：

近年的研究表明，在ViT中引入**3×3深度卷积（Depthwise Convolution）**可以被视为一种条件位置编码（Conditional Positional Encoding, CPE），能够有效地捕捉位置信息，尤其是来自于边界处的零填充位置？？？。

3.2.2 Rethinking Channel Mixer Design

作者重新思考了通道混合器的设计，尤其是在视觉任务中的应用。

1. GLU 在 NLP 中的效果和在视觉任务中的局限性：

GLU（Gated Linear Unit）在自然语言处理（NLP）任务中表现良好，作为通道混合器，它通过两个线性投影的逐元素相乘来实现，其中一个投影经过门控函数的激活。然而，在视觉任务中，GLU 的门控机制没有充分利用更大的感受野（Receptive Field），这就导致了它在处理图像时的局限性。

在视觉任务中，通道间的信息交互以及空间维度的位置信息同样重要，而 GLU 在这方面的能力显得不足。相较之下，Squeeze-and-Excitation（SE）机制通过全局平均池化来获取全局信息，但其门控信号对所有位置共享，缺乏足够的细粒度控制，这也是传统方法的不足。

2. 引入 3×3 深度卷积改进 GLU：

为了解决这些局限性，作者提出在 GLU 的门控分支中加入 3×3 深度卷积（Depthwise Convolution）。这一改进使得每个特征点（token）能够根据其最近邻的特征生成一个独特的门控信号，而不是像 SE 那样为所有特征共享同一个信号。

这种卷积引入了局部空间信息，弥补了传统 GLU 只处理通道维度而忽略空间维度的缺点，特别是对于 ViT（Vision Transformer）这种缺乏位置编码的模型，局部位置信息非常重要。（ConvGLU中的每个标记都具有一个独特的门控信号，基于其最近的细粒度特征。这解决了SE机制中全局平均池化过于粗粒度的缺点。它还满足了一些ViT模型的需求，这些ViT模型没有位置编码设计，需要深度卷积提供的位置信息）

3. 为什么这个改变重要？：

通过引入卷积，卷积 GLU（Convolutional GLU） 可以捕捉更细粒度的空间信息，增强模型在视觉任务中的表现。它不仅保持了 GLU 的计算简单性，还提高了模型在复杂图像任务中的鲁棒性和效率。

3.3. Architecture Design of TransNeXt

为了保证后续4.2消融实验的一致性，

四阶段层次骨干网络：TransNeXt 采用了与 PVTv2（Pyramid Vision Transformer v2）相同的四阶段层次化骨干网络设计，并且使用了重叠的 Patch Embedding。这些阶段的设计为网络提供了多层次的特征提取能力。
特征池化模块的应用：在第1至第3阶段中，TransNeXt 的聚合注意力（Aggregated Attention）模块的池化特征大小被设置为，这与 PVTv2 保持一致。然而，由于在第四阶段特征图大小进一步减小到，特征池化模块无法正常工作。为此，TransNeXt 对多头自注意力（MHSA）进行了修改，引入了查询嵌入和长度缩放的余弦注意力，以应对该问题。This is consistent with PVTv2’s use of MHSA in the fourth stage.
卷积 GLU：在所有四个阶段中，TransNeXt 使用了卷积 GLU（Convolutional Gated Linear Unit）作为通道混合器。GLU 结构通过引入卷积算子增强了局部特征建模的能力，并通过 GELU 激活函数增加了非线性。
扩展比和头维度：TransNeXt 参考了 PVTv2 的设计，使用了[8, 8, 4, 4]的扩展比来控制各个阶段的通道扩展，同时将卷积 GLU 的隐藏层维度设置为通常 MLP 参数的 2/3。为了在通道维度上具有3可整除性，头维度设置为24。The specific configurations of TransNeXt variants can be found in appendix.(为了确保与典型MLP参数的一致性，卷积GLU的隐藏维数为2/3 *的设置值。此外，作者将头维数设置为24，以在通道维度上被3整除。TransNeXt变体的具体配置可以在附录中找到。
)
架构变化的影响：论文提到，TransNeXt 的具体架构设计通过一系列实验，证明了其在多种视觉任务中的有效性。

图 3. 像素聚焦注意力（左）和聚合注意力（右）之间的比较图示。两者的特征尺寸均为 10×10，窗口尺寸为 3×3，池尺寸为 2×2。

左边的像素聚焦注意力（Pixel-focused Attention，PFA）和右边的聚合注意力（Aggregated Attention，AA）在处理细粒度和粗粒度特征时确实存在差异，核心区别在于右边的聚合注意力增加了额外的注意力机制，例如位置注意力（Positional Attention）和查询嵌入（Query Embedding，QE），这帮助模型获得了更多的特征信息。

左边：像素聚焦注意力（PFA）：
- 主要处理细粒度信息，通过滑动窗口计算查询与最近邻像素（细粒度特征）的相似度。
- 通过池化路径（pooling）处理粗粒度信息，聚合特征后与细粒度信息结合。这个机制类似于传统的注意力机制，但缺乏额外的增强手段。
- 位置偏置（Positional Bias）在滑动窗口内的最近邻像素计算中进行调整。
右边：聚合注意力（AA）：
- 除了处理细粒度和粗粒度特征，AA 还引入了更多的机制，例如位置注意力和查询嵌入（QE）。

位置注意力（Positional Attention） 和 查询嵌入（Query Embedding, QE） 是提升注意力机制表达能力的两种关键手段，它们的引入主要是为了解决传统注意力机制在处理空间关系和查询特征时的局限性。

1. 位置注意力（Positional Attention）：

目的：传统的QKV注意力机制通常只通过固定的相对位置编码（如sin/cos位置编码）来处理位置信息。然而，这种静态的位置编码在面对图像中的不同场景时，表现可能不够灵活。位置注意力的引入就是为了使模型能够根据不同的查询和键的相对位置，动态地调整注意力分配，从而更准确地捕捉空间关系。
作用：
- 动态调整权重：位置注意力能够根据查询与键之间的相对位置差异动态调整注意力权重，而不是依赖固定的编码。这种动态调整更灵活，可以让模型在局部和全局范围内都能更好地建模像素之间的关系。
- 增强空间感知：它让模型对图像中的空间位置信息更加敏感，能够捕捉到更复杂的空间布局，尤其是在涉及到物体之间的相对位置关系时，这种能力显得尤为重要。
图3中的应用：在右边的聚合注意力中，位置注意力结合滑动窗口和池化操作，帮助模型在多个尺度上捕捉像素之间的空间关系，使得特征融合更为丰富。

2. 查询嵌入（Query Embedding, QE）：

目的：传统的注意力机制中，查询（Query）是通过输入的特征直接生成的，虽然在很多任务中有效，但在处理复杂的高维数据时，直接使用输入特征作为查询可能不足以充分表达输入的信息。引入查询嵌入就是为了增强查询的表达能力，使其能够捕捉到更多的上下文信息和任务相关的特征。
作用：
- 增强查询表达：查询嵌入是一个可学习的参数，它与输入的特征共同作用，可以为每个查询注入额外的上下文信息，使查询不仅依赖于输入特征，还能从全局或局部的上下文中学习到更多的特征。
- 丰富特征表示：通过将查询嵌入与查询特征结合，模型能够生成更复杂的查询向量，从而在注意力权重计算时，能够更有效地找到与之相关的键和值。这使得注意力机制能够捕捉到更丰富的特征，并在复杂任务中表现更好。
图3中的应用：在右边的聚合注意力中，查询嵌入增强了查询的特征表示能力，它帮助模型在细粒度特征的基础上，注入更多的全局上下文信息，使得模型在注意力计算时，不仅能够考虑输入特征，还能根据任务的不同需求，动态调整查询特征。

总结：

位置注意力增强了模型对相对位置的感知能力，让注意力机制能够根据相对位置动态调整权重，特别是在图像任务中表现更好。
查询嵌入则通过丰富查询的特征表示能力，使得查询向量能够包含更多的上下文信息，从而提升模型对复杂场景的建模能力。

4. Experiment

实验部分主要是对TransNeXt模型在不同视觉任务上的性能进行了详细的实验验证

4.1. ImageNet-1K分类任务

TransNeXt模型的代码基于PVTv2实现，并且遵循了DeiT模型的训练策略（recipe）。DeiT 是一种经典的视觉Transformer模型，其训练策略在视觉任务中被广泛采用。

模型从头开始在ImageNet-1K数据集上进行训练，训练周期为300个epoch。

在训练过程中，使用了自动混合精度（AMP, Automatic Mixed Precision）技术，这项技术可以在不牺牲模型性能的情况下减少内存使用量，加快训练速度。训练时使用了8块GPU来并行处理数据。

超参数：
- 训练时使用的具体超参数在附录中有详细描述。超参数包括学习率、优化器等与模型性能密切相关的设置。
模型鲁棒性测试：
- 为了全面评估模型的鲁棒性，论文使用了多个额外的测试集进行测试：
  - ImageNet-C：对ImageNet-1K验证集应用了算法失真（如噪声、模糊等）以创建的224×224大小的测试集，测试模型对各种图像扰动的适应性。
  - ImageNet-A：包含一些对抗样本（adversarial examples），专门用于测试模型在面对具有挑战性样本时的表现。
  - ImageNet-R：这是一个扩展测试集，包含了一些ResNet50未能正确分类的样本，用来评估模型在其他数据上的泛化能力。
  - ImageNet-Sketch：由手绘图像组成，用于测试模型在非自然图像上的表现。
  - ImageNet-V2：与ImageNet-1K采用相同的采样策略，作为扩展测试集，用来衡量模型在不同数据采样情况下的鲁棒性。

不同模型在这些数据集上的准确率（Top-1）和mCE（误分类率）的差异，从而评估不同模型在多种场景下的鲁棒性和性能差异。

模型表现：
- TransNeXt-Micro模型在ImageNet-1K上的top-1准确率为82.5%，超越了FocalNet-T(LRF)，并减少了55%的参数。
- TransNeXt-Tiny模型的top-1准确率为84.0%，超越了ConvNeXt-B，且相比于ConvNeXt-B模型参数减少了69%。（Specifically, our TransNeXt-Micro model achieves a top-1 accuracy of 82.5% on ImageNet-1K, surpassing the FocalNet-T(LRF) while utilizing 55% fewer parameters. Similarly, our TransNeXt-Tiny model achieves a top-1 accuracy of 84.0%, outperforming ConvNeXt-B with a reduction of 69% in parameters. Remarkably）
- 此外（Remarkably），TransNeXt-Small/Base在更大分辨率下（384×384），经过仅5轮微调后，分别超越了较大的MaxViT-Base模型0.3%/0.5%，而MaxViT-Base需要30个epoch进行微调，表明了其在大规模图像推理方面的优势。
鲁棒性表现：
- 值得注意的是（Notably），在最具挑战性的 ImageNet-A 测试集上，随着模型规模的扩大，TransNeXt 在鲁棒性方面表现出了显着的优势（TransNeXt在模型规模增加时展现出显著的鲁棒性提升）。
- 在224×224分辨率的ImageNet-A下，TransNeXt-Base超越了MaxViT-Base 6.4%。
- 在384×384分辨率下，TransNeXt-Small/Base的ImageNet-A准确率分别为58.3%/61.6%，显著超过了ConvNeXt-L（7.6%/10.9%），且参数量仅为ConvNeXt-L的25%和45%。

图1. ImageNet-1K上的性能、ImageNet-A上的鲁棒性、基于Mask R-CNN 1×的COCO检测和实例分割性能、基于UperNet的ADE20K语义分割性能的综合比较

4.2 Object detection and instance segmentation目标检测和实例分割任务

检测头和训练方式：
- 使用了 Mask R-CNN 作为检测头，并在 1× schedule（即标准的训练时间配置）下进行训练。
- TransNeXt 模型是基于 ImageNet-1K 预训练的，这使得其在COCO数据集上能够进行快速的迁移学习。(在COCO数据集上评估预训练的TransNeXt模型在目标检测和实例分割任务上的表现) 图1
模型表现：
- 实验结果表明，TransNeXt 模型在目标检测和实例分割任务中取得了优异表现，尤其是在较小的模型规模下也具有竞争力。
- TransNeXt-Tiny 模型在4尺度下的AP值为 55.1，相比ConvNeXt-L（AP为53.4）高出1.7，但其骨干网络参数仅为后者的14%。
多尺度设置：
- 在更大尺度的设置下，TransNeXt-Base 模型在5尺度下的AP值为 57.1，接近于预训练于ImageNet-22K的Swin-L模型（AP为57.2）。
- 这些结果表明，TransNeXt模型在对象检测任务中能够以较少的计算资源获得接近或超越其他主流模型的性能。
- 通过这些实验，TransNeXt在COCO数据集上的目标检测和实例分割任务中表现出了卓越的鲁棒性和竞争力 .

4.3 Semantic segmentation

TransNeXt 模型在 ADE20K 数据集上的语义分割任务表现得到了验证。具体内容如下：

方法和设置：
- 使用了 UperNet 和 Mask2Former 两种方法来对 ImageNet-1K 预训练的 TransNeXt 模型进行微调，并且在分辨率为 512×512 的设置下，进行了 160k 次迭代的训练。
- ADE20K 数据集用于评估语义分割任务中的模型表现，该数据集是一个常用于语义分割的大型数据集，包含各种复杂场景。
模型表现：
- 在 UperNet 方法下，TransNeXt 模型在所有模型大小中均表现出了全面的优越性。TransNeXt-Base 模型甚至超过了 ConvNeXt-B（mIoU 为 52.6%），后者是在更大的 ImageNet-22K 上预训练的，并且在分辨率为 640×640 的设置下进行了进一步训练。
- 在 Mask2Former 方法下，TransNeXt-Small 模型取得了 54.1% 的 mIoU，超过了 Swin-B（mIoU 为 53.9%），Swin-B 同样在 ImageNet-22K 上进行了预训练并在更高分辨率下训练。
- TransNeXt-Base 模型的 mIoU 达到了 54.7%，进一步表明该方法有超越模型大小限制的潜力。
密集预测任务的优势：
- 论文提到，TransNeXt 在密集预测任务（如语义分割）中的表现相对于分类任务更加显著。这是因为 TransNeXt 的 聚合注意力 机制能够在较早的阶段就实现更自然的视觉感知，这种生物模拟的设计让模型在处理图像的局部和全局特征时具有更好的表现。

4.1. Multi-scale Inference

TransNeXt在不同模式下的多尺度推理能力，并与纯卷积模型进行对比。以

正常模式与线性模式：
- 在正常模式下，TransNeXt的推理将Hp和Wp设定为输入图像尺寸的1/32。
- 而在线性模式下，这两个值固定为7×7。作者对比了这两种模式下TransNeXt的推理性能，并且发现在两种模式下，TransNeXt都优于纯卷积模型。

图中展示了两种不同的模式：

TransNeXt-Tiny (Normal)（红色线）：
- 这是正常模式，表示模型使用标准的配置进行推理。在这个模式下，模型的每一层都会根据输入图像的大小动态调整其参数，例如特征图的大小会随着输入图像的分辨率而变化。
- 该模式下，长度缩放余弦注意力和对数位置偏置(log-CPB)等机制会被应用，目的是在不同分辨率下保持模型的推理性能稳定。
TransNeXt-Tiny (Linear)（蓝色线）：
- 这是线性模式，表示模型在推理时不随着输入分辨率的变化而调整内部的特征图大小。也就是说，模型对所有输入尺寸都会保持特定大小的特征图，而不考虑输入的分辨率变化。
- 该模式下，模型的推理速度可能会有所提升，但在处理高分辨率输入时，性能可能会下降，因为模型无法根据输入图像的实际大小调整其内部结构。

图 6. 左图显示了 TransNeXt-Tiny 在正常和线性推理模式下与纯卷积模型对多尺度图像推理性能的比较结果，而右图显示了我们的位置编码设计和长度缩放余弦注意力机制对这方面的影响。

与大卷积核策略的对比：
- 文章还将TransNeXt与大卷积核策略（如RepLKNet-31B）进行了对比，发现RepLKNet-31B在较大图像尺寸推理时表现出显著的性能下降，640×640分辨率下的准确率仅为0.9%。这说明TransNeXt在应对多尺度推理问题上相对于大卷积核策略有优势。（大型卷积核方案 [11, 31] 也被提出来解决深度退化问题，但在大图像尺寸推理期间表现出显着的性能下降）
长度缩放余弦注意力的影响：
- 图6右展示了**长度缩放余弦注意力（Length-scaled Cosine Attention）**在高分辨率推理下的表现，表明当分辨率达到640×640时，序列长度的变化显著影响了缩放余弦注意力的置信度。（长度缩放在分辨率为640×640时变得显着重要，这表明在 softmax 中超过 8 倍的序列长度变化开始显着降低缩放余弦注意力的置信度）
- 此外，使用插值计算相对位置偏置会导致性能大幅下降，强调了使用log-CPB（对数位置偏置）在多尺度推理中的有效性。

图6右侧的消融实验分析了两项关键技术在多尺度推理中的影响，具体包括位置编码设计和长度缩放余弦注意力（length-scaled cosine attention）。每条线条代表不同的实验设置，目的在于评估这些技术对模型推理性能的影响：

位置编码设计：
- 该实验对比了不同的相对位置偏置计算方式对多尺度推理性能的影响。使用插值计算位置偏置会导致显著的性能下降，说明了插值在处理多尺度输入时的局限性。
- 论文提出的 log-CPB（对数位置偏置） 则能有效应对多尺度推理任务，特别是在高分辨率下，保持模型推理性能的稳定。
长度缩放余弦注意力：
- 余弦注意力的放缩系数随着序列长度的变化动态调整。在640×640高分辨率推理时，这种放缩系数对注意力输出的置信度产生了显著影响，能够避免随序列长度增加导致的注意力输出信心下降问题。
- 图中显示，当序列长度超过8倍时，Softmax操作中的置信度会显著降低，进一步证明了长度缩放机制在应对大规模输入时的优势。

实验结果分析：这些实验结果表明，使用 log-CPB 和 长度缩放余弦注意力 的方法能够显著提高模型在多尺度推理中的表现，尤其是在高分辨率下，这些方法能够更好地保持模型的预测精度。

（总结来看，TransNeXt通过长度缩放余弦注意力和对数位置偏置等机制，表现出卓越的多尺度推理能力，优于一些纯卷积模型，尤其是在大图像分辨率下具有显著优势）

4.2. A roadmap from PVT to TransNeXt

从PVT到TransNeXt的路线图中，作者主要讨论了通过一系列实验和修改，将PVT-Tiny逐步改进为TransNeXt-Micro的过程。具体步骤如下：

基础模型 (Step 0)：最初从PVT-Tiny开始，这是一种基于PVTv2的模型。
引入Overlapping Patch Embedding和ConvFFN (Step 1)：通过引入重叠的Patch Embedding和卷积前馈网络（ConvFFN），取得了显著性能提升。
更深且更窄 (Step 2)：对PVTv2的网络进行调整，使其高度更深、宽度更窄，从而提升模型的性能。（与TransNeXt-Tiny一致），Attention头的数量48
更多的Attention Head (Step 3)：将头部尺寸减少到 24，将Attention头的数量增加，进一步优化了模型的特征提取能力。
GLU替换ConvFFN (Step 4)：将ConvFFN替换为GLU（门控线性单元），但性能有所下降，这表明GLU单独使用并不理想。
ConvGLU替换GLU (Step 5)：引入卷积门控线性单元（ConvGLU），解决了GLU的局限性，显著提高了模型性能。
SRA替换为PFA (Step 6)：用像素聚焦注意力（PFA）替换了空间缩减注意力（SRA），进一步增强了模型的准确性和鲁棒性。
引入位置注意力 (Step 7)：增加位置注意力进一步改善了模型在不同数据集上的表现。
加入Query Embedding (Step 8)：引入查询嵌入，在进一步提升模型性能的同时，仅带来了微小的计算开销。（8-9： pixel-focused attention with aggregated attention）

图 2 消融实验展示了从 PVTTiny 到 TransNeXt-Micro 的完整路线图

每一步的实验结果都表明，通过这些关键的组件和模块替换，TransNeXt在各项指标上都有显著提升，尤其是在ImageNet-A、ImageNet-R等复杂数据集上的鲁棒性大大增强。这些改进展示了模型在不同领域和任务中，如何通过逐步优化提升准确率和鲁棒性

5. Conclusion

总结了本文提出的 TransNeXt 模型的主要贡献和实验成果。具体结论如下：

仿生中央凹视觉设计的Token Mixer：
- 论文提出了一种模仿生物中央凹视觉的设计，称为聚合注意力（Aggregated Attention），用于Token混合。该设计能够模拟人类视觉在局部细节和全局特征间的平衡感知，从而提升视觉模型的表现。
带有门控通道注意力的通道混合器：
- 还引入了带有门控通道注意力的通道混合器，称为卷积GLU（Convolutional GLU）。这一设计通过更有效的通道注意力机制增强了模型的特征表示能力，特别是通道信息的处理。
TransNeXt模型的性能表现：
- 将上述两种模块结合，提出了强大的、具有高度鲁棒性的视觉模型 TransNeXt。该模型在分类、检测和分割等多种视觉任务中取得了最先进的性能，展示了其在不同领域任务中的广泛适用性。
多尺度推理中的优势：
- TransNeXt在多尺度推理任务中的卓越表现特别突出，克服了大卷积核策略（large kernel strategies）在处理深度衰减问题（depth degradation）时的局限性，能够更好地适应不同分辨率的输入。
CUDA加速实现：
- 提供了TransNeXt的CUDA实现，在训练中达到了最高103.4%的加速，推理过程中实现了60.5%的加速，大幅提升了模型的计算效率。
进一步的实验数据和讨论：
- 论文中附录部分包含了更多详细的实验数据和相关讨论，进一步验证了模型的优势和创新点。

总的来说，TransNeXt通过结合生物启发的注意力机制和高效的通道混合器，在视觉任务中实现了强大的性能和高效的计算能力。

TransNeXt模型的设计与创新：
- 论文提出了一种新的视觉骨干网络 TransNeXt，该模型通过聚合多种注意力机制以及卷积门控线性单元（Convolutional GLU）作为通道混合器，提升了模型的特征提取能力。
- TransNeXt引入了像素聚焦注意力（Pixel-focused Attention, PFA）和长度缩放余弦注意力（Length-scaled Cosine Attention），使模型在处理不同分辨率输入时能够保持较高的准确性和鲁棒性。
实验结果的表现：
- TransNeXt在多个计算机视觉任务上表现优异，包括ImageNet-1K分类、目标检测、实例分割和语义分割等任务，均超越了当前的主流模型。
- 特别是在密集预测任务中（如语义分割），TransNeXt的表现尤为突出，展示了较好的视觉感知能力。
多尺度推理和模型的鲁棒性：
- TransNeXt通过在模型中引入对数位置偏置（log-CPB）和长度缩放余弦注意力，提升了模型在多尺度推理任务中的性能，尤其是在应对高分辨率输入时，模型的推理能力显著增强。
- 此外，TransNeXt在ImageNet-A、ImageNet-R等复杂数据集上展示了较强的鲁棒性，能够更好地应对挑战性样本。
未来工作：
- 未来的工作可能会进一步探索如何将TransNeXt应用于更多的视觉任务和场景，并通过更加轻量化的设计进一步提升模型的推理速度和效率。