Coordinate Attention 论文阅读
背景:研究表明通道注意力可以显著提升了模型性能,但是在以往的工作中通常忽略了位置信息,而位置信息对于生成空间注意力非常重要。为了利用位置信息,Coordinate Attention 将位置信息嵌入到了通道注意力中。不同于通过二维全局池化将特征张量转换为单个特征向量的通道注意力 (SENet),Coordinate Attention 的做法是将通道注意力分解为两个一维的特征编码过程,沿水平和垂直方向聚合特征,从而可以沿着一个方向捕获长程依赖,再通过另一个方向保留精确的位置信息。这样特征图就被编码为一对有方向且有位置信息的特征图,它们可以补充作用于输入特征图来增强感兴趣目标的表示。
Coordinate Attention Blocks
Coordinate Attention 用位置信息同时编码了通道间的关系和长程依赖,过程分为坐标信息嵌入和坐标注意力生成两个阶段。
- 坐标信息嵌入
由于全局池化难以保留空间信息,所以作者将全局池化分解成一对编码一维特征的操作,从而激励注意力块利用位置信息捕获远距离的空间交互。具体的做法是对每个通道在空间上沿垂直和水平方向用两个大小分别为 ( H , 1 ) (H, 1) (H,1) 和 ( 1 , W ) (1, W) (1,W) 池化核。因此,在通道 c c c,垂直坐标 h h h 处和水平坐标 w w w 处的输出分别可以公式化描述为
z c h ( h ) = 1 W ∑ 0 ≤ i < W x c ( h , i ) . z_{c}^{h} (h) = \frac{1}{W} \sum_{0\le i<W }^{} x_{c} (h, i). zch(h)=W10≤i<W∑xc(h,i).
z c w ( w ) = 1 H ∑ 0 ≤ i < H x c ( w , j ) . z_{c}^{w} (w) = \frac{1}{H} \sum_{0\le i<H }^{} x_{c} (w, j). zc