Swin-Transformer详解

提着小灯找呀找

已于 2022-12-04 11:23:29 修改

阅读量1.6k

点赞数

文章标签： transformer 深度学习人工智能

于 2022-11-22 16:03:47 首次发布

本文链接：https://blog.csdn.net/xunmizhengzha/article/details/127952866

版权

在传统的CNN网络中，存在一些缺陷，当堆叠的卷积核太少时候，网络的感受野会比较小，不能表达全局信息，Attebtion能够让我们去关注前景忽略背景，Swin-Transformer的提出最早是为了减小运算量，适应图像分割等问题，在论文中，有patch和token两个概念，我认为当特征存在H和W维度的时候，他就是patch，当H和W相乘时候就是token，当然，他们都是指的的同一组特征，所以很多地方把他们通用。以上为Swin-Transformer的总体流程，下面本文将对网络中每一个结构做详尽介绍：

1.Patch Partition（图像块分割）+Linear Embeding（线性嵌入）

两个过程的实现为使用一个二维卷积（Conv2d），输入通道数：3，输出通道数：C=96（在这里不是48=3*4*4，因为在代码中Patch Partition和Linear Embeding通过一个二维卷积实现，在这里是使用了96个卷积核，根据网络大小不同还可以128、192），卷积核大小和步长都为4。然后进行了归一化（Layer Norm）

2.Patch Merging（图像块合并）

图来源

上图为Patch Merging的一个样例，取一个通道的特征进行讲解，用一个2×2的窗口在特征图上步长为2滑动，每个窗口会被分成四个区域，根据区域不同把一张特征图分为四份，然后在通道深度方向进行拼接，拼接后在通道方向进行归一化（LayerNorm），然后使用全连接使深度变为2。与原图相比高和宽变为原来一半，深度变为原来的二倍。全连接如下：

nn.Linear(4 * dim, 2 * dim, bias=False)

为了提高模型的表征能力，随着网络的加深，通过Patch Merging来减少token（Patch）的数量

3.W-MSA & SW-MSA

上图中，左面是一个MSA模块，其中有多个patch，每一个patch都会与其他的patch进行沟通（q,k)计算，在右面，是swin-Transformer中的W-SMA他会把特征图分割为多个window（窗口），窗口中的每个patch只会和窗口内的patch进行self-attention计算。

目的：减少计算量

缺点：窗口之间无法进行信息交流

为了解决上面窗口之间无法进行信息交流的缺点，通过cyclic shift 把窗口进行移动，这样就可以聚合不同窗口之间的信息。

Shift Window的使用可以实现不同Window之间的信息交互。

Shift Window的过程指的是将window窗口向右和向下移动一定的距离，一般是两个patch的距离，移动之后，特征图的边缘会存在一些多余的突出特征和一些空白的部分，我们把突出特征补充到空白处，可以生成可被窗口分割的特征图，但是补充而来的特征图会与其周围特征形成一个新的窗口，窗口之间的patch会进行self-attention计算，这是我们不想看到的，所有我们使用一个masked MSA（蒙版），防止拼接window不同区域之间的计算。