【论文精读】Swin Transformer

FFnone

已于 2024-02-10 16:55:05 修改

阅读量1.5k

点赞数 23

分类专栏： BackBones 文章标签：深度学习人工智能计算机视觉算法机器学习

于 2024-02-09 11:21:13 首次发布

本文链接：https://blog.csdn.net/weixin_44934783/article/details/136085215

版权

本文针对ViT不适合视觉应用、计算复杂度过高的问题，提出Swin Transformer。它基于滑动窗口机制，有层级设计，能节省计算量并注意全局特征。文中介绍其框架、自注意力机制等，还通过多组实验对比，验证了Swin Transformer在图像分类、目标检测和语义分割等任务上的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

ViT的缺点：

Transformer在语言处理中的基本元素是word token，其特点是语义信息比较密集。而ViT中token的尺度（scale）是固定的，且视觉token携带的语义信息比语言文字序列差，故认为不适合视觉应用
图像分辨率高，像素点多，如果采用ViT模型，自注意力的计算量会与像素的平方成正比，计算复杂度过高是导致ViT速度慢的主要原因

故本文做出改进：

基于滑动窗口机制，具有层级设计（下采样层）的Swin Transformer。滑窗操作包括对token不重叠的local window，和对token重叠的cross-windos
将注意力计算限制在一个小窗口中，一方面能引入CNN卷积操作的局部性，另一方面能大幅度节省计算量，它只和窗口数量成线性关系
通过下采样的层级设计，能够逐渐增大感受野，从而使得注意力机制也能够注意到全局的特征

框架

给定图像 $x$ ，首先通过Patch拆分（Patch Partition）模块将输入的 $H\times W \times3$ 的RGB图像拆分为非重叠等尺寸的 $N\times(P^2\times3)$ 的patch。每个 $P^2\times3$ 的patch都被视为一个patch token，共拆分出 $N$ 个（即Transformer的有效输入序列长度）。

具体地，令 $P^2=4 \times 4$ 且通道数 $C = 3$ ，则各patch展平后的特征维度为 $\times P \times C = 4 \times 4 \times 3 = 48$ ，共有 $\frac H 4 \times \frac W 4 = \frac {HW} {16}$ 个patch tokens。换言之，每张 $H\times W \times3$ 的图片被处理为了 $\frac H 4 \times \frac W 4$ 个图片patches，每个patch被展平为48维的token向量（类似ViT的Flattened Patches），整体上是一个展平（flatten）的 $\times (P^2 \times 3) = (\frac H 4 \times \frac W 4) \times 48$ 的patch序列。

线性嵌入层（Linear Embedding）（即全连接层）会将此时维度为 $(\frac H 4 \times \frac W 4) \times 48$ 的张量投影到任意维度 $C$ ，得到维度为 $(\frac H 4 \times \frac W 4) \times C$ 的Linear Embedding。

随后，这些经过Linear Embedding的patch tokens被馈入若干具有改进自注意力的Swin Transformer blocks。首个Swin Transformer block保持输入输出tokens数恒为 $\frac H 4 \times \frac W 4 \times C$ 不变，且与线性嵌入层共同被指定为Stage 1（如图3的第一个虚线框所示）。

整个模型采取层次化的设计，一共包含4个Stage，每个stage都会缩小输入特征图的分辨率，逐层扩大感受野。随着网络的加深，tokens数逐渐通过Patch合并层（Patch Meraging）被减少。首个Patch合并层拼接了每组 $\times 2$ 相邻patch，则patch token数变为原来的 $\frac 1 4$ ，即 $\frac H 8 \times \frac W 8$