When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanis

big_hm

已于 2022-06-08 20:59:59 修改

阅读量509

点赞数

分类专栏：视觉Transformer 论文阅读笔记文章标签： transformer

于 2022-06-08 19:31:59 首次发布

本文链接：https://blog.csdn.net/woshilaixiazaidemiao/article/details/125171837

版权

本文提出ShiftViT，一个将注意力层替换为零FLOP和零参数的移位操作的ViT变体，挑战了注意力机制在Transformer中的必要性。ShiftViT在ImageNet等任务上表现出与Swin Transformer相当甚至更好的性能，暗示ViT的强大可能源于其他组件，而非注意力机制。

摘要由CSDN通过智能技术生成

Abstract

论文地址：AAAI2022-https://arxiv.org/abs/2201.10801
代码地址：https://github.com/microsoft/SPACH

注意力机制并不是ViT必不可少的部分。提出将注意力机制简化为zero FLOP and zero parameter，具体来说是重新讨论了移位操作shift operation，它不包含任何参数或者算术计算，唯一的操作是再相邻特征之间交换一小部分通道。基于这种操作提出一种新的backbone, shiftViT。

Introduction

ViT为什么起作用？
一些作品认为是注意力机制促进了VIT强大的表达能力，因为它提供了一种灵活而强大的空间关系建模方法。具体而言，注意机制利用自注意矩阵来聚合任意位置的特征。与CNN中的卷积运算相比，它有两个显著的优点。

首先，这种机制为同时捕获short-和long-ranged依赖性提供了可能，并消除了卷积的局部限制。
其次，两个空间位置之间的交互动态地取决于它们自身的特征，而不是固定的卷积核。

一些研究觉得即使没有这些特性，ViT变体仍能很好地工作。

对于第一种情况，fully-global dependencies是可以避免的。比如SwinTransformer, Local ViT都提出一种局部注意机制，试图用一个小的local region来限制attention范围，实验表明，性能并没有因局部约束而下降。
此外，另一个研究方向是研究动态聚合的必要性。MLP-Mixer提出用线性投影层代替注意层，其中线性权重不是动态生成的。在这种情况下，它仍然可以在ImageNet数据集上达到领先的性能

既然全局和动态属性对ViT框架可能都不是至关重要的，那么ViT成功的根本原因是什么？为了解决这个问题，作者进一步将注意力层简化为一个非常简单的情况：没有全局感受野，没有动态性，甚至没有参数和额外计算量。本文想知道在这种极端情况下，ViT是否能保持良好的性能。

本文贡献：

提出了一种类似ViT的backbone, 其中原始注意层被一种极其简单的shift操作代替，该模型可以获得比Swin更好的性能。
分析了ViTs成功的原因。这暗示注意机制可能不是ViT发挥作用的关键因素，在今后的ViTs研究中，应认真对待其它组件。

Related Work

Swin Transformer的架构图：

本文提出的ShiftViT的架构图：

给定一个 $H * W * 3$ 的输入图像，也将图像分割为不重叠的patch，每个patch的大小为4x4像素，经过patch partition输出 $\frac H 4$ x $\frac W 4$ x48的token.

接下来的模块可以分为4个stage，每个stage包含两部分：embedding生成和堆叠的 shift blocks。

对于第一个stage的embedding生成，使用线性投影层将每个token映射到通道数为C的embedding中，对于其余的stage，通过2x2的卷积合并相邻的patch，将token大小调整为原来的一半，通道大小为输入的两倍，C to 2C。

ShiftViT的patch merging代码

class PatchMerging(nn.Module):
    def __init__(self, input_resolution, dim, norm_layer=nn.LayerNorm):
        super

最低0.47元/天解锁文章

big_hm

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanis

注意力机制并不是ViT必不可少的部分。提出将注意力机制简化为zero FLOP and zero parameter，具体来说是重新讨论了移位操作shift operation，它不包含任何参数或者算术计算，唯一的操作是再相邻特征之间交换一小部分通道。基于这种操作提出一种新的backbone, shiftViT。......
复制链接

扫一扫

专栏目录