Transformer（三）搞懂Swin Transformer

不瘦8斤的妥球球饼

已于 2022-04-27 22:25:27 修改

阅读量4k

点赞数 3

文章标签： python

于 2022-04-01 21:05:28 首次发布

本文链接：https://blog.csdn.net/weixin_43570470/article/details/123902334

版权

Swin Transformer是微软提出的一种适用于计算机视觉任务的Transformer架构，通过滑窗操作解决了Transformer在CV领域的计算复杂度问题。文章详细介绍了Swin Transformer的总体结构、窗口注意力机制、实验结果以及存在的问题，展示了其在图像分类、目标检测和语义分割等任务上的优势。

摘要由CSDN通过智能技术生成

《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》
论文链接：https://arxiv.org/abs/2103.14030

一、论文信息

二、总体结构

三、window attention 和 shift window attention

四、实验

五、存在的问题

一、论文信息

之前transformer主要用于NLP领域，现在也应用到了CV领域。Swin transformer是微软2021年3月月25日公布的一篇利用transformer架构处理计算机视觉任务的论文，它可以作为计算机视觉的通用backbone。源码仅仅公布两天就在github上收获了2.2k个stars，在图像分割、目标检测各个领域已经霸榜，让很多人看到了transformer完全替代卷积的可能。而且它的设计思想吸取了resnet的精华，从局部到全局，将transformer设计成逐步扩大感受野的工具，它的成功背后绝不是偶然，而是厚厚的积累与沉淀。

将Transformer从语言调整到视觉的挑战来自两个领域之间的差异：

1.视觉实体的大小差异很大，NLP对象的大小是标准固定的。
2.图像中的像素与文本中的单词相比具有很高的分辨率，而CV中使用Transformer的计算复杂度是图像尺度的平方，这会导致计算量过于庞大。

为了解决这两个问题，这篇文章提出了a hierarchical Transformer ，其表示是用滑窗操作计算的。滑窗操作方案通过将注意力计算限制到不重叠的局部窗口，同时还允许跨窗口连接，带来了更高的效率。（滑窗操作包括不重叠的local window，和重叠的cross-window。）
这种分层体系结构可以灵活地在各种尺度上建模，并且在图像大小方面具有线性计算复杂性。Swin Transformer的这些品质使其能够兼容广泛的视觉任务。