第6周学习：Vision Transformer &amp； Swin Transformer

是IMI呀

已于 2022-08-19 11:15:20 修改

阅读量1.2k

点赞数

文章标签： transformer 学习深度学习

于 2022-08-19 10:59:24 首次发布

本文链接：https://blog.csdn.net/weixin_45351699/article/details/126418013

版权

Vision Transformer & Swin Transformer

Vision Transformer
Swin Transformer
ConvNeXt
- 设计与实验
- ConvNeXt-T 结构图

Vision Transformer

模型概要

关于Vision Transformer(ViT)的模型框架简要而言，主要由三个模块组成：Linear Projection of Flattened Patches(Embedding层)、Transformer Encoder、MLP Head（最终用于分类的层结构）。
请添加图片描述

Embedding层结构

对于标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵[num_token, token_dim]，对于图像数据而言，其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。在代码实现中通过一个卷积层来实现。在输入Transformer Encoder之前注意需要加上[class]token以及Position Embedding。
请添加图片描述

Transformer Encoder

Transformer Encoder其实就是重复堆叠Encoder Block L次，Encoder Block主要由几部分组成：Layer Norm（针对NLP领域提出的，对每个token进行Norm处理）、Multi-Head Attention、Dropout/DropPath、MLP Block（全连接+GELU激活函数+Dropout）。
请添加图片描述

MLP Head

通过Transformer Encoder后输出的shape和输入的shape是保持不变的，这里我们只是需要分类的信息，所以我们只需要提取出[class]token生成的对应结果，即[197, 768]中抽取出[class]token对应的[1, 768]。接着我们通过MLP Head得到我们最终的分类结果。
请添加图片描述

Hybrid模型

Model Variants中有比较详细的讲到Hybrid混合模型，就是将传统CNN特征提取和Transformer进行结合。下面是以ResNet50作为特征提取器的混合模型，这里的R50的卷积层采用的StdConv2d不是传统的Conv2d，然后将所有的BatchNorm层替换成GroupNorm层。在原Resnet50网络中，stage1重复堆叠3次，stage2重复堆叠4次，stage3重复堆叠6次，stage4重复堆叠3次，但在这里的R50中，把stage4中的3个Block移至stage3中，所以stage3中共重复堆叠9次。通过R50 Backbone进行特征提取后，得到的特征矩阵shape是[14, 14, 1024]，接着再输入Patch Embedding层，注意Patch Embedding中卷积层Conv2d的kernel_size和stride都变成了1，只是用来调整channel。
请添加图片描述

Swin Transformer

网络整体框架

Swin Transformer与Vision Transformer的区别是：
（1）Swin Transformer使用了类似卷积神经网络中的层次化构建方法（Hierarchical feature maps），比如特征图尺寸中有对图像下采样4倍的，8倍的以及16倍的，这样的backbone有助于在此基础上构建目标检测，实例分割等任务。而Vision Transformer中是一开始就直接下采样16倍，后面的特征图也是维持这个下采样率不变。
（2）在Swin Transformer中使用了Windows Multi-Head Self-Attention(W-MSA)的概念，比如在下图的4倍下采样和8倍下采样中，将特征图划分成了多个不相交的区域（Window），并且Multi-Head Self-Attention只在每个窗口（Window）内进行。相对于Vision Transformer中直接对整个（Global）特征图进行Multi-Head Self-Attention，这样在浅层特征图很大的时候能够减少计算量。但这样做也会隔绝不同窗口之间的信息传递，所以在论文中作者又提出了 Shifted Windows Multi-Head Self-Attention(SW-MSA)的概念，通过此方法能够让信息在相邻的窗口中进行传递。
请添加图片描述
Swin Transformer（Swin-T）网络架构图：

请添加图片描述
首先将图片输入到Patch Partition模块中进行分块，即每4x4相邻的像素为一个Patch，然后在channel方向展平（flatten）。假设输入的是RGB三通道图片，那么每个patch就有4x4=16个像素，然后每个像素有R、G、B三个值所以展平后是16x3=48，所以通过Patch Partition后图像shape由 [H, W, 3]变成了 [H/4, W/4, 48]。然后在通过Linear Embeding层对每个像素的channel数据做线性变换，由48变成C，即图像shape再由 [H/4, W/4, 48]变成了 [H/4, W/4, C]。Patch Partition和Linear Embeding就是直接通过一个卷积层实现的。
然后就是通过四个Stage构建不同大小的特征图，除了Stage1中先通过一个Linear Embeding层外，剩下三个stage都是先通过一个Patch Merging层进行下采样。然后都是重复堆叠Swin Transformer Block。这里的Block其实有两种结构，如图(b)中所示，这两种结构的不同之处仅在于一个使用了W-MSA结构，一个使用了SW-MSA结构。而且这两个结构是成对使用的，先使用一个W-MSA结构再使用一个SW-MSA结构。因为成对使用，所以会发现堆叠Swin Transformer Block的次数都是偶数。
最后对于分类网络，后面还会接上一个Layer Norm层、全局池化层以及全连接层得到最终输出。

Patch Merging

如下图所示，假设输入Patch Merging的是一个4x4大小的单通道特征图（feature map），Patch Merging会将每个2x2的相邻像素划分为一个patch，然后将每个patch中相同位置（同一颜色）像素给拼在一起就得到了4个feature map。接着将这四个feature map在深度方向进行concat拼接，然后在通过一个LayerNorm层。最后通过一个全连接层在feature map的深度方向做线性变化，将feature map的深度由C变成C/2。通过这个简单的例子可以看出，通过Patch Merging层后，feature map的高和宽会减半，深度会翻倍。
请添加图片描述

W-MSA

引入Windows Multi-head Self-Attention（W-MSA）模块是为了减少计算量。如下图所示，左侧使用的是普通的Multi-head Self-Attention（MSA）模块，对于feature map中的每个像素（或称作token，patch）在Self-Attention计算过程中需要和所有的像素去计算。但在图右侧，在使用Windows Multi-head Self-Attention（W-MSA）模块时，首先将feature map按照MxM（例子中的M=2）大小划分成一个个Windows，然后单独对每个Windows内部进行Self-Attention。
请添加图片描述

SW-MSA

采用W-MSA模块时，只会在每个窗口内进行自注意力计算，所以窗口与窗口之间是无法进行信息传递的。为了解决这个问题，作者引入了Shifted Windows Multi-Head Self-Attention（SW-MSA）模块，即进行偏移的W-MSA。如下图所示，左侧使用的是刚刚讲的W-MSA（假设是第L层），那么根据之前介绍的W-MSA和SW-MSA是成对使用的，那么第L+1层使用的就是SW-MSA（右侧图）。根据左右两幅图对比能够发现窗口（Windows）发生了偏移（可以理解成窗口从左上角分别向右侧和下方各偏移了 $\left \lfloor \frac {M} {2} \right \rfloor$ 个像素）。看下偏移后的窗口（右侧图），比如对于第一行第2列的2x4的窗口，它能够使第L层的第一排的两个窗口信息进行交流。再比如，第二行第二列的4x4的窗口，他能够使第L层的四个窗口信息进行交流，其他的同理。那么这就解决了不同窗口之间无法进行信息交流的问题。
请添加图片描述

Relative Position Bias

请添加图片描述

ConvNeXt

设计与实验

请添加图片描述
Macro design：作者将ResNet50中的堆叠次数由(3,4,6,3)调整成(3,3,9,3)，将stem换成卷积核大小为4，步距为4的卷积层。

ResNeXt-ify：ResNeXt相比普通的ResNet而言在FLOPs以及accuracy之间做到了更好的平衡。而作者采用的是更激进的depthwise convolution。

Inverted Bottleneck：作者认为Transformer block中的MLP模块非常像MobileNetV2中的Inverted Bottleneck模块，即两头细中间粗。采用Inverted Bottleneck模块后，在较小的模型上准确率由80.5%提升到了80.6%，在较大的模型上准确率由81.9%提升到82.6%。

Large Kernel Sizes：Moving up depthwise conv layer+Increasing the kernel size