Transformer论文解读五（Swin Transformer）

一只蓝鲸鱼

已于 2022-03-02 14:55:45 修改

阅读量5.9k

点赞数 5

分类专栏：计算机视觉 Transformer 文章标签：深度学习计算机视觉 transformer pytorch 神经网络

于 2021-11-30 22:43:59 首次发布

本文链接：https://blog.csdn.net/weixin_44579633/article/details/121643995

版权

计算机视觉同时被 2 个专栏收录

56 篇文章

订阅专栏

Transformer

6 篇文章

订阅专栏

SwinTransformer是微软2021年在ICCV上发表的一种改进的Transformer模型，针对VisionTransformer的计算量大和信息传递限制进行了优化。它采用了层次化构建、窗口划分和窗口变换技术，其中窗口变换通过ShiftedWindowsMulti-HeadSelf-Attention实现相邻窗口间的信息交互，降低了计算复杂度并提高了性能。该模型在目标检测、实例分割等多个视觉任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文中要介绍的Swin Transformer全名为Swin Transformer: Hierarchical Vision Transformer using Shifted Windows，是2021年微软研究院发表在ICCV上的一篇文章，在多项视觉任务中展现出优异性能。

1. 改进

相比于Vision Transformer（讲解），Swin Transformer做出了几点改进：

层次化构建方法：使用了类似卷积神经网络中的层次化构建方法（Hierarchical feature maps），比如特征图尺寸中有对图像下采样4倍的，8倍的以及16倍的，这样的backbone有助于在此基础上构建目标检测，实例分割等任务。而Vision Transformer中直接下采样16倍，后面的特征图也是维持这个下采样率不变。
特征图划分：在Swin Transformer中使用了Windows Multi-Head Self-Attention(W-MSA)的概念，比如在下图的4倍下采样和8倍下采样中，将特征图划分成了多个不相交的窗口，并且Multi-Head Self-Attention只在每个窗口内进行。相对于Vision Transformer中直接对整个特征图进行Multi-Head Self-Attention，这样做的目的是减少计算量，尤其是在浅层特征图很大的时候。
窗口变换：特征图划分虽然减少了计算量，但会隔绝不同窗口之间的信息传递，因此所以在论文中作者又提出了Shifted Windows Multi-Head Self-Attention(SW-MSA)的概念，目的在于使信息在相邻窗口中传递。

在这里插入图片描述

2. 网络架构

论文中给出了Swin Transformer（Swin-T）网络的架构图。可以看出整个框架的基本流程如下：

在这里插入图片描述

图片分块：首先将图片输入到Patch Partition模块中进行分块，即每 $4\times4$ 相邻的像素为一个Patch，然后在channel方向展平。由于每个patch就有 $4\times4=16$ 个像素，每个像素有R、G、B三个值，所以展平后的深度是 $16\times3=48$ ，所以通过Patch Partition后图像shape由 $[H, W, 3]$ 变成了 $[\frac{H}{4}, \frac{W}{4}, 48]$ 。
线性变换：通过Linear Embeding层对每个像素的channel数据做线性变换，由 $48$ 变成 $C$ ，即图像shape再由 $[\frac{H}{4}, \frac{W}{4}, 48]$ 变成了 $[\frac{H}{4}, \frac{W}{4}, C]$ 。在源码中通过一个卷积层实现。
网络模块堆叠：通过四个Stage构建不同大小的特征图，除了Stage1中先通过一个Linear Embeding层外，剩下三个stage都是先通过一个Patch Merging层进行下采样。然后都是重复堆叠Swin Transformer Block。注意，Transformer Block有两种结构，如图(b)中所示，这两种结构的不同之处仅在于一个使用了W-MSA结构，一个使用了SW-MSA结构。而且这两个结构是成对使用的，先使用一个W-MSA结构再使用一个SW-MSA结构。所以堆叠Swin Transformer Block的次数都是偶数（因为成对使用）。
分类头：最后，对于分类网络，在后面接上一个Layer Norm层、全局池化层以及全连接层，得到最终输出。

3. Patch Merging

除了Stage1以外的Stage中，首先要通过一个Patch Merging层进行下采样，如下图所示

在这里插入图片描述
假设输入Patch Merging的是一个4x4大小的单通道特征图，Patch Merging的过程如下：

将每个2x2的相邻像素划分为一个patch
将每个patch中相同位置（同一颜色）像素拼在一起，就得到了4个feature map
将四个feature map在深度方向进行concat拼接
通过一个LayerNorm层
通过一个全连接层在feature map的深度方向做线性变化，将feature map的深度由C变成C/2。

可以看出，通过Patch Merging层后，feature map的高和宽会减半，深度会翻倍。

4. W-MSA

引入Windows Multi-head Self-Attention（W-MSA）模块是为了减少计算量。

如下图所示，在Self-Attention计算过程中，普通的Multi-head Self-Attention（MSA）模块将feature map中的每个patch和所有的像素去计算。但Windows Multi-head Self-Attention（W-MSA）模块首先将feature map按照MxM（例子中的M=2）大小划分成一个个Windows，然后单独对每个Windows内部进行Self-Attention。

在这里插入图片描述