摘要
给定一个中间特征图,我们的模块将沿着通道和空间两个独立的维度依次推断出注意力图,然后将注意力图乘以输入特征图进行自适应特征细化。
引言
为了提高CNN的性能,最近的研究主要研究了网络的三个重要因素:深度、宽度和基数(cardinality)。
出了上述三种因素,我们探究了网络架构设计的另一方面:注意力机制。专注于重要的特性并抑制不必要的特性。
相关工作
网络工程。加深网络渐近饱和,由于梯度传播较为困难。
ResNet采用跳层连接来解决此问题。
基于ResNet,
WideResNet提出了一种具有较多卷积滤波器和较低深度的残差网络;
PyramidNet是对WideResNet的严格推广,其中网络的宽度逐渐增加;
ResNeXt[7]建议使用分组卷积,并表明增加基数会导致更好的分类精度;
DenseNet迭代地将输入特征与输出特征连接起来,使每个卷积块能够接收到来自所有前面块的原始信息。
现有工作主要集中在深度、宽度、二者兼有之上,而我们的工作则聚焦于注意力机制。
注意力机制。模仿人类的一种机制,Residual Attention Network使用了编码器-解码器风格的注意模块。通过优化特征图,该网络不仅性能良好,而且对噪声输入具有鲁棒性。
我们把注意力机制分解为空间维度和通道维度,并且做到了即插即用模块化。
Squeeze-and-Excitation使用全局平均池化特性来计算通道上的注意力。然而,我们证明这些是次优特征当用于推断精细的通道注意,我们建议也使用<