论文阅读：Swin Transformer

最新推荐文章于 2025-03-20 12:54:22 发布

Z字君

最新推荐文章于 2025-03-20 12:54:22 发布

阅读量1.4k

点赞数 2

分类专栏： # transformer 文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/zzc_zhuyu/article/details/119413705

版权

transformer 专栏收录该内容

3 篇文章

订阅专栏

SwinTransformer是一种创新的视觉Transformer模型，通过非重叠窗口的自注意力计算，结合移位窗口机制，实现在保持效率的同时增强跨窗口连接。论文介绍了其整体架构、关键设计如移位配置的高效计算和相对位置偏置，以及在图像分类、目标检测和语义分割等任务上的出色性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

0 摘要

本文提出了一种分层Transformer，其表示是用移位窗口计算的，通过将自注意力计算限制在不重叠的本地窗口同时，还允许跨窗口连接来提高效率。这种分层架构在各种尺度上建模很灵活，并且具有相对于图像大小的线性计算复杂度。
能和视觉任务兼容，包括图像分类和密集预测任务，目标检测和语义分割。
性能相当好，证明了基于 Transformer 的模型作为视觉主干的潜力。可以作为Transformer的backbone。
代码：https://github.com/microsoft/Swin-Transformer

1 引言

CV方向通用方法是CNN，NLP领域存在Transformer方法。本文寻求扩展 Transformer的适用性，使其可以作为CV的backbone。

CV和NLP的差异：

NLP中Transformers的基本元素是单词token，视觉元素在规模上会有很大差异，现有的Transformer方法中token是固定规模，不适用于CV。
图像中像素的分辨率很高。对于高分辨率图像上的Transformer来说难以处理，因为其自注意力的计算复杂性与图像大小成二次方。

文本提出了一个通用的Transformer主干，称为 Swin Transformer，它构建分层特征图并且对图像大小具有线性计算复杂度。

分层特征图：通过从小尺寸的patch开始并逐渐与相邻patch合并到更深层中构建分层表示。
线性计算复杂度：通过在图像分割的非重叠窗口内局部计算自注意力来实现。每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。

Swin Transformer 的一个关键设计元素是它在连续自注意力层之间的窗口分区的移动。移动的窗口桥接前一层的窗口，提供它们之间的连接。

2 相关研究

3 方法

3.1 整体架构

先将图片分成不重叠的块，每个块成为token，其特征是原始像素RGB值的串联，然后经过一个线性嵌入层投影到维度C。
在这些token上应用若干修正自注意力计算的Swin Transformer 块。Transformer 块保持令牌的数量，与线性嵌入一起被称为“阶段 1”。
随着网络变深，通过块合并层来减少token的数量。
1. 第一个块合并层连接每组 $2 \times 2$ 相邻块的特征，并在 $4 C$ 维连接特征上应用线性层（ $4 C$ 变 $2 C$ ）。 token数减少4倍，并且输出维度设置为 $2 C$ 。之后应用 Swin Transformer 块进行特征转换，保持 $\frac{H}{8}× \frac{W}{8}$ 。补丁合并和特征转换的第一个块表示为“第 2 阶段”。
2. 该过程重复两次，分别为“第 3 阶段”和“第 4 阶段”，输出分辨率分别为 $\frac{H}{16}× \frac{W}{16}$ 和 $\frac{H}{32}× \frac{W}{32}$ 。
这些阶段共同产生一个分层表示，具有与典型卷积网络相同的特征图分辨率。因此，所提出的架构可以方便地替换将骨干网络置于现有方法中，用于各种视觉任务。

Swin Transformer块

Swin Transformer 是通过将 Transformer 模块中的标准多头自注意力 (MSA，multi-head self attention) 模块替换为基于移动窗口的模块而构建的，其他层保持不变。由一个基于移动窗口的MSA 模块组成，后跟一个 2层MLP，其间具有GELU非线性。在每个MSA模块和每个 MLP 之前应用一个正则化层，在每个模块之后应用一个残差连接

3.2 基于移动窗口的自注意力

非重叠窗口中的自注意力

为了有效建模，提出在局部窗口内计算自注意力。窗口以不重叠的方式均匀地划分图像。假设每个窗口包含 $M \times M$ 个块，全局MSA 模块和基于 h × w 块图像的窗口的计算复杂度为：
$\Omega(MSA)=4hwC^2+2(hw)^2C\\ \Omega(W-MSA)=4hwC^2+2M^2hwC\\$
（这里的计算复杂度就是qkv那一套理论）可以看到，全局自注意力复杂度正比于块数的平方，而非重叠窗口的自注意力对块数是线性的。

连续块中的移位窗口分区

基于窗口的自注意力模块缺乏跨窗口的连接，限制了能力。为了在保持非重叠窗口的高效计算的同时引入跨窗口连接，作者提出了一种移位窗口分区方法，在连续的 Swin Transformer 块中的两个分区配置之间交替。

第一个模块使用从左上角像素开始的常规窗口分区策略，将 $8 \times 8$ 特征图均匀地划分为大小为 $4 \times 4 (M = 4)$ 的$ 2 × 2$ 窗口。然后，下一个模块采用从前一层的窗口配置偏移的窗口配置，通过将窗口从规则分区的窗口中移动 $(\lfloor\frac{M}{2}\rfloor,\lfloor\frac{M}{2}\rfloor)$ 个像素。使用移位窗口分区方法，连续的 Swin Transformer 块计算为：

符号说明见上图。

移位配置的高效批量计算

移位窗口分区的一个问题是它会产生更多的窗口，从$\lceil \frac{h}{W} \rceil \times \lceil \frac{h}{W} \rceil $ 到 $(\lceil \frac{h}{W} \rceil+1) \times (\lceil \frac{h}{W} \rceil+1) $ ，有的窗口会比 $M \times M$ 小。

作者提出了一种更有效的批量计算方法，通过向左上方向循环移位。在这种移位之后，在特征图中一个批量窗口可能由几个不相邻的子窗口组成，因此采用屏蔽机制将自注意力计算限制在每个子窗口内。使用循环移位，批处理窗口的数量与常规窗口分区的数量相同，因此也是有效的。

相对位置偏置

$B\in R^{M^2\times M^2}$ ， $M$ 是一个窗口内的块的个数。由于沿每个轴的相对位置在 $[−M + 1, M −1] $范围内，参数化一个更小的偏置矩阵 $\hat B \in R ^{(2M−1)×(2M−1)}$ ，并且 $B$ 的值取自 $\hat B$ 。

3.3 架构的变体

4 实验

4.1 图像分类

4.2 目标检测

4.3 语义分割

4.4 消融实验

移位窗口

相对位置偏置

自注意方法

5 总结

本文介绍了 Swin Transformer，一种新的视觉 Transformer，它产生分层特征表示并具有线性计算复杂度。Swin Transformer实现了先进的性能。希望 Swin Transformer 在各种视觉问题上的强大表现将鼓励视觉和语言信号统一建模。作为 Swin Transformer 的一个关键元素，基于平移窗口的自注意力在视觉问题上被证明是有效和高效的，作者也期待研究其在自然语言处理中的应用。

6 源代码

6.1 Part Partition

注意，源代码里面使用的卷积层，把Patch Partition和Linear Embeeding作用合到了一起

6.2 Swin Transformer block

window 划分：

def window_partition(x, window_size):
    """
    Args:
        x: (B, H, W, C)
        window_size (int): window size

    Returns:
        windows: (num_windows*B, window_size, window_size, C)
    """
    B, H, W, C = x.shape
    x = x.view(B, H // window_size, window_size, W // window_size, window_size, C)
    windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
    return windows

移位窗口：

# cyclic shift
        if self.shift_size > 0:
            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
        else:
            shifted_x = x

mask：

img_mask = torch.zeros((1, H, W, 1))  # 1 H W 1
  
mask_windows = window_partition(img_mask, self.window_size)  # nW, window_size, window_size, 1
mask_windows = mask_windows.view(-1, self.window_size * self.window_size)