网络模型之Swin Transformer（2021）

深度学习炼丹师-CXD

已于 2023-10-07 14:37:31 修改

阅读量155

点赞数 1

分类专栏：网络模型文章标签： transformer 深度学习人工智能

于 2023-10-05 10:42:07 首次发布

本文链接：https://blog.csdn.net/weixin_44342777/article/details/133577640

版权

网络模型专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Swin transformer: Hierarchical vision transformer using shifted windows.
Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo.
arXiv preprint arXiv:2103.14030, 2021. 1, 2, 4

链接：

原文
原本解读
官方代码

Swin Transformer

背景：
- VIT：
  - 是一种将图像分割成固定的patches，然后对所有的patch使用全局自注意力计算。
- VIT的缺点：
  - VIT不能将用于分辨率较高的图像作为输入：VIT将每个patch当作一个token；每个patch的H、W和通道维度作为token的特征，对整张图像的多个patch做自注意力计算，所以VIT的自注意力计算复杂度与图像尺寸是二次方关系。
论文创新点：
1. 提出了一种新的Vision Transformer，能够作为一种计算机视觉的通用backbone。
  - Swin Transformer 可用于图像分类、目标检测、语义分割等多个下游任务。
2. 提出了一种（层次化的）hierarchical Transformer，其表示是用（移位窗口）shifted windows 计算的。
  - 针对SW-MSE，提出了高效的批次优化方案和使用相对位置编码的两种优化trick。
3. Swin Transformer 相对于输入图像大小具有线性计算复杂度：
  - Swin Transformer对每个移位窗口中的多个patch做自注意力计算，由于窗口内patch的个数M是固定的，所以==（基于移位窗口的自注意力）SW-MSE的计算复杂度与图像尺寸是线性关系==。

Swin Transformer 原理

Swin Transformer前向计算过程

在这里插入图片描述

基于移动窗口的多头自注意力（SM-MSE）

在这里插入图片描述

优化1：如然提高移动窗口的计算效率？

在这里插入图片描述

优化2：使用相对位置偏置，而不是绝对位置偏置

在计算自注意力时，在计算相似度的过程中对每个head加入相对位置偏置 $B\in\mathbb R^{M^2×M^2}$ ,公式如下：
![[Pasted image 20231005100628.png]]

符号含义：
- $Q,K,V\in\mathbb R^{M^2,d}$ ：分别为Query，Key，Value 的张量矩阵
- d：Query和Key的维度。
- $M^2$ ：（局部）窗口内的patch个数
由于沿每个轴的相对位置处于[−M+1, M−1]的范围内，所以参数化一个较小尺寸的偏置矩阵 $\hat B\in\mathbb R ^{(2M−1)×(2M−1)}$ ，B 中的值取自 $\hat B$ 。
![[Pasted image 20231005102225.png]]
从上表中明显看出使用相对位置偏置的优势：
1. 实验表明使用该 相对位置偏置 的效果显著优于 不使用位置偏置 或 使用绝对位置嵌入。
2. 进一步向输入添加绝对位置嵌入会略微降低性能，因此在实现中没有采用。
3. 此外，预训练中学习到的相对位置偏置，也可用于通过双三次插值初始化具有不同窗口大小的微调模型。