[ICCV2021]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

深蓝蓝蓝蓝蓝

已于 2022-04-13 11:03:52 修改

阅读量528

点赞数

分类专栏：深度学习算法论文阅读文章标签： java python 计算机视觉机器学习区块链

于 2021-10-13 23:10:15 首次发布

本文链接：https://blog.csdn.net/wrk226/article/details/122740501

版权

论文阅读同时被 2 个专栏收录

90 篇文章 10 订阅

订阅专栏

深度学习算法

16 篇文章 1 订阅

订阅专栏

标题：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
链接：https://arxiv.org/pdf/2103.14030

动机

现在在CV中使用transformer的最大问题是运算量太大，因为图片的信息量远远大过NLP中文本的信息量，然后再做self attention会导致N平方的复杂度，这是不可以接受的，因此如何减少运算量是很重要的。而这篇文章就是提出了一个线性计算量的transformer结构

方法

之前的ViT考虑的是直接将一个图片分割，然后每个小块做embedding取到局部特征(？)，然后再对所有分割的块做self attention取到全局特征。这样的计算复杂度是随着图片增大而呈平方增大的。
而这篇文章提出的Swin Transformer是按照hierarchical的方式来一层层做transformer的。
大体结构就是先将图片分成小区，然后针对每个小区块做embedding，之后输入一个swing transformer block，然后将相邻区块合并，成为稍微大点的区，再输入另一个swing transformer block，之后类似的操作还会做两次，从而得到最终的输出。
其中最主要的点就是swing transformer block是啥。swing transformer block实际上是由两层组成的，第一层就是一个简单的transformer block(self attention+feedforward)，第二层结构类似第一层，只不过attention层变成了shift window multihead self attention，本质上就是比前面的那个self attention多了一个shift功能。
这个shift功能是用来处理边界问题的。因为在将图片分成不同区域之后，区域与区域之间的交互信息就丢失了，而这个shift就是说将原本的2*2的窗口变成3*3个窗口，就像下面这个图这样：

微信截图_20211013225745.png

然后再对每个小窗口内部做self attention，从而获得了边界上的交互信息。但是由于这么划分之后区域变多
了，反而增加了运算量，因此本文使用了mask attention，结合他们提出的cyclic shift来简化运算。如下图所示：

微信截图_20211013230626.png

也就是说划分完九块之后，正中间的大方块和右上，左下的小方块不动，然后将左上角的A，B，C三个块移动到右下角，从而重新拼成一个正方形。之后再对四个方块里的每部分做masked self attention就可以得到原来九个区域的self attention结果了。计算完后再将A，B，C移动回去就可以继续下一步操作。

结果

结果来说，swin transformer不仅减少了运算量，而且在众多CV任务上都取得了很大的进步，之后的衍生文章打破了很多SOTA。

深蓝蓝蓝蓝蓝

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[ICCV2021]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

动机现在在CV中使用transformer的最大问题是运算量太大，因为图片的信息量远远大过NLP中文本的信息量，然后再做self attention会导致N平方的复杂度，这是不可以接受的，因此如何减少运算量是很重要的。而这篇文章就是提出了一个线性计算量的transformer结构方法之前的ViT考虑的是直接将一个图片分割，然后每个小块做embedding取到局部特征(？)，然后再对所有分割的...
复制链接

扫一扫