swin transformer

最新推荐文章于 2024-09-25 09:57:54 发布

nocol.

最新推荐文章于 2024-09-25 09:57:54 发布

阅读量724

点赞数 1

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcyzcyjava/article/details/126559780

版权

地址：

每下采样两倍通道数翻倍（下采样，高和宽缩减为原来的一半，通道数会翻倍）

网络整体框架

Patch Merging

划分窗口，每个窗口之间进行自注意力计算，窗口之间互不影响

滑动窗口

如何在不同窗口之间不计算自注意力 ?

例：

如下：

黄色窗口之间的内容是连续的，因为图像块本来就挨着呢，紫色的经过平移转换之后图像块之间不连续

使用mask MSA进行计算

相对位置偏置（右下是负，左上是正）

每个位置的相对位置索引行索引和列索引

如何将二元坐标换成一元坐标

偏移从0开始将上图的位置坐标值都加上一（M-1）这里M=2 M是窗口，这里窗口是2*2，那M就等于2

再在行标上乘以3（2M-1）M=2

再将行标和列标相加

按照表格位置编码表得到最终的位置编码信息

vit与swin transformer

vit的自注意力始终都是在整张图上（就一个窗口，也就是最大的窗口）进行的，是一个全局建模

swin transformerr借鉴了很多卷积神经网络的理念

池化操作能够增大每一个卷积核能看到的感受野，从而使得每次池化过后的特征抓住物体的不同尺寸

注：池化操作的长宽减半，通道翻倍的意思（下图）

第一次是正常的窗口自注意力，第二次是移动窗口自注意力，两次是绑定的，这也是在四个阶段swin transformer都为偶数的原因

拿向量转置和自身内积之后的矩阵与一个掩码矩阵相加，那原本不同窗口之间的元素（63 36）就加上了-100之后变成了一个很小的数，再经过softmax之后就成0了，而原本一个窗口之间的元素加上0之后不会带来任何影响

再看看另一种窗口的排列方式

作者给出的掩码模板的可视化

相对位置编码

Transformer中的位置编码由正余弦函数生成，是不学习的，且只在第一个layer添加位置编码；在ViT中，由1-D索引对应一个768维的位置编码，位置编码可以学习。而Swin Transformer使用的位置编码有两点不同：（1）位置编码加的位置不同，加在了attention矩阵中；（2）使用的是相对位置信息而不是绝对位置信息

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。