《Exploring Self-attention for Image Recognition》CVPR2020

Love向日葵的兮兮子

已于 2022-02-26 15:57:19 修改

阅读量1.4k

点赞数 3

分类专栏： Transformer 文章标签：图像识别深度学习计算机视觉

于 2020-08-31 19:53:34 首次发布

本文链接：https://blog.csdn.net/weixin_43994864/article/details/108327527

版权

Transformer 专栏收录该内容

25 篇文章 8 订阅

订阅专栏

在这里插入图片描述

论文链接：https://arxiv.org/pdf/2004.13621.pdf
论文代码：https://github.com/hszhao/SAN

1. 问题

cnn由于卷积核固定的原因，它无法自适应的针对图像不同的像素内容进行改变；不过针对每个channel的卷积核值可以不同，因此在通道上可以自适应。以往提到的很多attention用dot product算scalar attention，虽然做到了内容自适应，但是每个通道的值又相同，即做不到通道自适应

2. 动机

本文作者认为，使用卷积网络进行图像识别任务实际上就是在实现特征聚合和特征变化，所以提出将传统卷积解耦，并将特征聚集理解成局部区域内的像素特征加权求和。所以作者提出利用注意力机制自动生成这个权值，从而增加所考虑的局部区域大小，又不增加参数目标，同时允许特征聚合适应每个通道

3. 方法

本文提出使用self-attention机制来代替卷积作为特征聚集方法。它考虑了两种self-attention形式：pairwise self-attention和patchwise self-attention。用这两种形式的self-attention机制作为网络的basic block提出SAN网络结构。

pairwise self-attention

其中⊙是Hadamard product，X是feature map上一点，y是经过self-attention模块运算后得到的feature map上的对应点。R(i)是对应位置i周围局部区域，β(xj)是对xj进行embedding后的结果。而
相关函数δ有以下多种形式（实验证明summation, subtraction, 和Hadamard product有相同性能，并超过concatenation和dot product）：

与传统卷积区别：卷积核的权重在学习完成后就是一个固定的标量，再用这个标量与特征图上一点的每个维度相乘。而在pairwise self-attention方法中，权重通过α(xi,xj)计算得到，而且计算结果是一个向量，再用这个向量与β(xj)对位相乘。显然这种方式考虑到了特征在不同通道上的权重大小。

patchwise self-attention

其中xR(i)是R(i)所在区域的特征图，α(xR(i))是权重张量。与上面pairwise self-attention相比，patchwise self-attention没有对(xi,xj)进行配对计算，而是整个区域用来计算得到一个权重张量，再用下标j来索引这个张量进行后续操作。而
此处函数δ 也有多种形式（本文最后选择的 concatenation 效果更好）：

4.本文self-attention block图：

在这里插入图片描述利用这样的block替代传统CNN中conv+bn/relu即得SAN网络:

5. 实验结果

在这里插入图片描述

6. 对比试验

在这里插入图片描述

7. 通过实验得到以下几点重要发现：

基于pairwise的网络取得了匹配甚至超越单纯的卷积网络的性能，这意味着计算机视觉中深度学习的成功并非与卷积网络紧密相连，还有其他的可选择方案甚至具有更优的判别能力(比如permutation- and cardinality-invariance)；
基于patchwise的网络取得了超越纯卷积网络的性能，这意味着块自注意力可能在其他计算机视觉中取得更好的性能增益；
相比标量(scalar/dot-product)自注意力机制(当前主流注意力机制)，向量(vector)自注意力更有力且具有明显优势。

Love向日葵的兮兮子

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
《Exploring Self-attention for Image Recognition》CVPR2020

问题cnn由于卷积核固定的原因，它无法自适应的针对图像不同的像素内容进行改变；不过针对每个channel的卷积核值可以不同，因此在通道上可以自适应。以往提到的很多attention用dot product算scalar attention，虽然做到了内容自适应，但是每个通道的值又相同，即做不到通道自适应动机本文作者认为，使用卷积网络进行图像识别任务实际上就是在实现特征聚合和特征变化，所以提出将传统卷积解耦，并将特征聚集理解成局部区域内的像素特征加权求和。所以作者提出利用注意力机制自动生成这个权..
复制链接

扫一扫