论文网址:https://arxiv.org/pdf/1704.06904.pdf
参考文章地址:
- https://cloud.tencent.com/developer/article/1099661
- https://blog.csdn.net/wspba/article/details/73727469
- 翻译地址:https://blog.csdn.net/xiaotian127/article/details/103352730
基于keras实现网络的地址:RAN代码
(注意:因为现在还没有开源的成熟代码(只有一个caffe的开源代码),所以没有预训练好的模型,使用这个网络可能需要自己重头开始训练,我从600张图片测试时,效果并没有那么好)
主要是搞清楚Attention module、attention residual learning、mask分支的结构。作者为了将用于序列、姿态识别等attention机制引入到图像分类中,提出了Attention Module,在Attention Module中,为了避免简单堆叠造成的性能下降,所以有借鉴了resnet中的残差学习,文中将其改进为注意残差学习(attention residual learning), 同时为了也在Attention Module使用了双分支的结构,分为主干分支和mask分支,关键就是通过mask分支实现了注意力聚焦在目标上的方法。在mask分支中通过先下采样再上采样的结构,最后用一个softmax(mixed attention),将mask分支的结果范围限定在[0,1]之间,然后再通过注意残差学习合并分支,这就完成了一个完整的Attention Module。然后再以Attention Module和residual unit相结合的方式最终就构造出了residual attention network(RAN)。