最近在看视觉注意力机制,看到比较好的博客或者公众号文章如下:
首先当然是要了解自然语言处理NLP里面的的注意力机制和Transformer基本概念:
1、Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)
然后再看视觉里面的:
1、视觉注意力机制 | Non-local模块与Self-attention的之间的关系与区别?
包含详细的视觉self-attention介绍和一篇应用self-attention的文章介绍:
模块依然存在以下的不足:
(1) 只涉及到了位置注意力模块,而没有涉及常用的通道注意力机制
(2) 可以看出如果特征图较大,那么两个(batch,hxw,c)矩阵乘是非常耗内存和计算量的,也就是说当输入特征图很大存在效率低下问题,虽然有其他办法解决例如缩放尺度,但是这样会损失信息,不是最佳处理办法。
2、视觉注意力机制 | 视觉注意力机制用于分类:SENet、CBAM、SKNet
3、视觉注意力机制 | Non-local模块如何改进?来看CCNet、ANN
- Criss Cross Network(CCNet):从全图像素关联变成了像素点所在十字线像素关联,通过重复叠层变成全局关联
- Asymmetric Non-local Neural Network(ANN):将key和value的生成过程多添加一个sample过程,这个sample过程可以是ASPP,也可以其他采样方法,从而使矩阵大小减小,降低计算。
4、视觉注意力机制| 非本地与SENet,CBAM模块融合:GCNet,DANet
5、Stand-alone Self-Attention
- 论文链接:https://arxiv.org/abs/1906.05909
- 代码:https://github.com/leaderj1001/Stand-Alone-Self-Attention
6、Local Relation Networks
7、 Vectorized Self-Attention
8、Vision Transformer
9、 Data-efficient Image Transformers:解读
10、目标检测的DETR:解读
11、Deformable - DETR:解读
12、用于分割的Transformer: Axial-attention for Panoptic Segmentation论文阅读
13、CMSA: Cross-modal Self-Attention
14、Max-Deeplab:双路径的cnn与transformer结合论文阅读