When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanis

Abstract

论文地址:AAAI2022-https://arxiv.org/abs/2201.10801
代码地址:https://github.com/microsoft/SPACH

注意力机制并不是ViT必不可少的部分。提出将注意力机制简化为zero FLOP and zero parameter,具体来说是重新讨论了移位操作shift operation,它不包含任何参数或者算术计算,唯一的操作是再相邻特征之间交换一小部分通道。基于这种操作提出一种新的backbone, shiftViT。


Introduction

ViT为什么起作用?
一些作品认为是注意力机制促进了VIT强大的表达能力,因为它提供了一种灵活而强大的空间关系建模方法。具体而言,注意机制利用自注意矩阵来聚合任意位置的特征。与CNN中的卷积运算相比,它有两个显著的优点。

  • 首先,这种机制为同时捕获short-和long-ranged依赖性提供了可能,并消除了卷积的局部限制。

  • 其次,两个空间位置之间的交互 动态地取决于它们自身的特征,而不是固定的卷积核。

一些研究觉得即使没有这些特性,ViT变体仍能很好地工作。

  • 对于第一种情况,fully-global dependencies是可以避免的。比如SwinTransformer, Local ViT都提出一种局部注意机制,试图用一个小的local region来限制attention范围,实验表明,性能并没有因局部约束而下降。

  • 此外,另一个研究方向是研究动态聚合的必要性。MLP-Mixer提出用线性投影层代替注意层,其中线性权重不是动态生成的。在这种情况下,它仍然可以在ImageNet数据集上达到领先的性能

既然全局和动态属性对ViT框架可能都不是至关重要的,那么ViT成功的根本原因是什么?为了解决这个问题,作者进一步将注意力层简化为一个非常简单的情况:没有全局感受野,没有动态性,甚至没有参数和额外计算量。本文想知道在这种极端情况下,ViT是否能保持良好的性能。

本文贡献:

  • 提出了一种类似ViT的backbone, 其中原始注意层被一种极其简单的shift操作代替,该模型可以获得比Swin更好的性能。
  • 分析了ViTs成功的原因。这暗示注意机制可能不是ViT发挥作用的关键因素,在今后的ViTs研究中,应认真对待其它组件。

Related Work

Swin Transformer的架构图:

本文提出的ShiftViT的架构图:

给定一个 H ∗ W ∗ 3 H*W*3 HW3的输入图像,也将图像分割为不重叠的patch,每个patch的大小为4x4像素,经过patch partition输出 H 4 \frac H 4 4Hx W 4 \frac W 4 4

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值