《Exploring Self-attention for Image Recognition》CVPR2020

在这里插入图片描述

论文链接:https://arxiv.org/pdf/2004.13621.pdf
论文代码:https://github.com/hszhao/SAN

1. 问题

cnn由于卷积核固定的原因,它无法自适应的针对图像不同的像素内容进行改变;不过针对每个channel的卷积核值可以不同,因此在通道上可以自适应。以往提到的很多attention用dot product算scalar attention,虽然做到了内容自适应,但是每个通道的值又相同,即做不到通道自适应

2. 动机

本文作者认为,使用卷积网络进行图像识别任务实际上就是在实现特征聚合和特征变化,所以提出将传统卷积解耦,并将特征聚集理解成局部区域内的像素特征加权求和。所以作者提出利用注意力机制自动生成这个权值,从而增加所考虑的局部区域大小,又不增加参数目标,同时允许特征聚合适应每个通道

3. 方法

本文提出使用self-attention机制来代替卷积作为特征聚集方法。它考虑了两种self-attention形式:pairwise self-attention和patchwise self-attention。用这两种形式的self-attention机制作为网络的basic block提出SAN网络结构。

  • pairwise self-attention
    在这里插入图片描述
    其中⊙是Hadamard product,X是feature map上一点,y是经过self-attention模块运算后得到的feature map上的对应点。R(i)是对应位置i周围局部区域,β(xj)是对xj进行embedding后的结果。而在这里插入图片描述
    相关函数δ有以下多种形式(实验证明summation, subtraction, 和Hadamard product有相同性能,并超过concatenation和dot product):在这里插入图片描述

与传统卷积区别:卷积核的权重在学习完成后就是一个固定的标量,再用这个标量与特征图上一点的每个维度相乘。而在pairwise self-attention方法中,权重通过α(xi,xj)计算得到,而且计算结果是一个向量,再用这个向量与β(xj)对位相乘。显然这种方式考虑到了特征在不同通道上的权重大小。

  • patchwise self-attention
    在这里插入图片描述
    其中xR(i)是R(i)所在区域的特征图,α(xR(i))是权重张量。与上面pairwise self-attention相比,patchwise self-attention没有对(xi,xj)进行配对计算,而是整个区域用来计算得到一个权重张量,再用下标j来索引这个张量进行后续操作。而在这里插入图片描述
    此处函数δ 也有多种形式(本文最后选择的 concatenation 效果更好):在这里插入图片描述

4.本文self-attention block图:

在这里插入图片描述利用这样的block替代传统CNN中conv+bn/relu即得SAN网络:
在这里插入图片描述

5. 实验结果

在这里插入图片描述

6. 对比试验

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7. 通过实验得到以下几点重要发现:

  1. 基于pairwise的网络取得了匹配甚至超越单纯的卷积网络的性能,这意味着计算机视觉中深度学习的成功并非与卷积网络紧密相连,还有其他的可选择方案甚至具有更优的判别能力(比如permutation- and cardinality-invariance);
  2. 基于patchwise的网络取得了超越纯卷积网络的性能,这意味着块自注意力可能在其他计算机视觉中取得更好的性能增益;
  3. 相比标量(scalar/dot-product)自注意力机制(当前主流注意力机制),向量(vector)自注意力更有力且具有明显优势。
  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值