Coordinate Attention 论文笔记

最新推荐文章于 2025-02-26 16:54:45 发布

Tianchao龙虾

最新推荐文章于 2025-02-26 16:54:45 发布

阅读量1.7k

点赞数

分类专栏：网络Tricks 文章标签：深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/120758384

版权

网络Tricks 专栏收录该内容

15 篇文章

订阅专栏

Coordinate Attention for Efficient Mobile Network Design

CA block CVPR2021

论文链接: https://arxiv.org/abs/2103.02907

一、 Problem Statement

SE block只关注了inter-channel的联系，忽略了位置信息。虽然CBAM添加了spatial attention module，但是是通过卷积来获取位置信息，而卷积只能捕获局部位置关系，不能够对长范围关系进行建模。

二、 Direction

提出了coordinate attention，通过嵌入位置信息到channel attention module中，提升网络表征性能。因为2D global pooling会导致positional information的丢失，作者把channel attention分解成两个平行的1D特征编码，分别对应direation-aware特征图的vertical和horizontal方向。

三、 Method

先来看一下SE，CBAM，和CA 模块的对比图。

Coordinate Attention模块主要分为两个部分:

Coordinate information embedding
Coordinate attention generation

1. Coordinate information embedding

先来看一下第一步，怎么样编码坐标信息。global pooling通常很难保存位置信息，而且为了提升attention blocks对于捕获长范围位置关系的能力，作者把global pooling分解为一对1D特征编码的操作。具体如下:

给定一个输入特征 $X$ ，使用两个spatial extents of pooling kernels $(H, 1)$ 和 $(1, W)$ 来分别编码沿着水平方向和垂直方向的通道。
$z_c^h(h) = \frac{1}{W} \sum_{0\leq i \lt W}x_c(h, i) \\ z_c^w(w) = \frac{1}{H} \sum_{0 \leq j \lt H}x_c(j, w)$
这样就产生了一对direction-aware的特征图。上面两个变换可以使得attention block在每个方向上，捕获长距离的关系，并且保存了位置信息，有助于帮助网络定位感兴趣目标。