论文名称:《A2-Nets: Double Attention Networks》
论文地址:https://arxiv.org/pdf/1810.11579.pdf
文章目录
1 原理
学习捕捉远距离关系对于图像/视频识别是基础性的。现有的CNN
模型通常依靠增加深度来建模这些关系,这在很大程度上效率低下。在这项工作中,我们提出了“双重注意力块”,这是一种新颖的组件,它可以从输入图像/视频的整个时空空间聚合和传播有信息的全局特征,使得后续的卷积层可以高效地访问整个空间的特征。该组件设计了一个双重注意力机制的两个步骤,第一步通过二阶注意力池将整个空间的特征聚集到一个紧凑的集合中,第二步通过另一个注意力机制自适应地选择和分配特征到每个位置。所提出的双重注意力块易于采用,并可以方便地插入到现有的深度神经网络中。我们进行了大量的消融研究和实验证明其性能。在图像识别任务中,使用我们的双重注意力块装备的ResNet-50
在ImageNet-1k
数据集上胜过了更大的ResNet-152
架构,参数数量减少了40%
以上,FLOPs
也减少了。在动作识别任务中,我们提出的模型在Kinetics
和UCF-101
数据集上取得了最先进的结果,并具有比最