关于Swin Transformer的一些知识

最新推荐文章于 2024-05-10 12:45:53 发布

zhaoshi87

最新推荐文章于 2024-05-10 12:45:53 发布

阅读量1.7k

点赞数 46

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/zhaoshi87/article/details/135752226

版权

Swin Transformer 利用移位窗口的分层视觉Transformer

文章介绍
- Transformer应用到图像领域主要有两大挑战，也是ViT可改进的地方
模型架构
结构变体

利用移位窗口的分层视觉Transformer)

文章介绍

在transformer创始文章《attention is all you need》的结尾提到transformer可以应用于除NLP以外的更多领域，比如图像、音频和视频。
在这里插入图片描述
在视觉领域，出现了ViT（vision transformer），ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，虽然不是第一篇将transformer应用在视觉任务的论文，但是因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了transformer在CV领域应用的里程碑著作，也引爆了后续相关研究。
ViT将输入图片分为多个patch（16x16），再将每个patch投影为固定长度的向量送入一个和原始Transformer相同的encoder。但是因为对图片分类，因此在输入序列中加入一个特殊的token，该token对应的输出即为最后的类别预测。

Transformer应用到图像领域主要有两大挑战，也是ViT可改进的地方

1）视觉实体变化大，在不同场景下视觉Transformer性能未必很好。
2）图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大。

针对上述两个问题，swin transformer提出了一种包含滑窗操作,具有层级设计的Swin Transformer。证明了Transformer可以在视觉领域取得更广泛应用。

1）利用分层可以使得Transformer可以有类似CNN的感受野，做到多尺度的特征提取
2）利用窗口和分层的形式来替代图像高分辨率带来的超长序列

于是本文获得ICCV2021最佳论文奖
在这里插入图片描述
Swin Transformer(a)通过合并更深层次的patch(灰色)来构建分层特征，并且仅在每个window(红色)计算自注意力，因此对输入图像大小具有线性计算复杂度。因此，它可以作为图像分类和密集识别任务的通用骨干。相比之下，ViT(b)产生单一大小的特征图，由于全局自注意力的计算，有二次的计算复杂度。

Swin transformer在很多类型的视觉任务上都有很好的表现，包括图像分类(ImageNet-1K上的精度为87.3top-1)和密集预测任务，如目标检测(COCO数据集上58.7 box AP and 51.1 mask AP)和语义分割(ADE20K上有53.5mIoU)，显示了基于transformer的模型作为视觉骨干的潜力。层次化设计和移位窗口方法也被证明对nlp任务有用。

模型架构

整个模型采取层次化的设计，一共包含4个阶段，每个阶段都会缩小特征图的分辨率，像CNN一样逐层扩大感受野
在这里插入图片描述
在输入开始的时候，将图片切成一个个图块。
在每个阶段中，由Patch Merging和多个Block组成，其中：
Patch Merging模块主要在每个阶段一开始降低图片分辨率（下采样）。每个Block为自注意力计算模块，分为窗口自注意力模块和滑窗自注意力模块。