Coordinate Attention 论文笔记

Coordinate Attention for Efficient Mobile Network Design

CA block CVPR2021

论文链接: https://arxiv.org/abs/2103.02907

一、 Problem Statement

SE block只关注了inter-channel的联系,忽略了位置信息。虽然CBAM添加了spatial attention module,但是是通过卷积来获取位置信息,而卷积只能捕获局部位置关系,不能够对长范围关系进行建模。

二、 Direction

提出了coordinate attention, 通过嵌入位置信息到channel attention module中,提升网络表征性能。因为2D global pooling会导致positional information的丢失,作者把channel attention分解成两个平行的1D特征编码,分别对应direation-aware特征图的vertical和horizontal方向。

三、 Method

先来看一下SE,CBAM,和CA 模块的对比图。

Coordinate Attention模块主要分为两个部分:

  1. Coordinate information embedding
  2. Coordinate attention generation

1. Coordinate information embedding

先来看一下第一步,怎么样编码坐标信息。global pooling通常很难保存位置信息,而且为了提升attention blocks对于捕获长范围位置关系的能力,作者把global pooling分解为一对1D特征编码的操作。具体如下:

给定一个输入特征 X X X,使用两个spatial extents of pooling kernels ( H , 1 ) (H, 1) (H,1) ( 1 , W ) (1,W) (1,W)来分别编码沿着水平方向和垂直方向的通道。
z c h ( h ) = 1 W ∑ 0 ≤ i < W x c ( h , i ) z c w ( w ) = 1 H ∑ 0 ≤ j < H x c ( j , w ) z_c^h(h) = \frac{1}{W} \sum_{0\leq i \lt W}x_c(h, i) \\ z_c^w(w) = \frac{1}{H} \sum_{0 \leq j \lt H}x_c(j, w) zch(h)=W10i<Wxc(h,i)zcw(w)=H10j<Hxc(j,w)
这样就产生了一对direction-aware的特征图。上面两个变换可以使得attention block在每个方向上,捕获长距离的关系,并且保存了位置信息,有助于帮助网络定位感兴趣目标。

2. Coordinate Attention Generation

这一部分的设计遵循了三个原则:

  • simple and cheap
  • make full use of the captured positional information
  • effectively capture inter-channel relationships

所以所做的操作是:

  1. 先把上面两个feature maps进行拼接融合
  2. 使用1x1卷积和激活函数
  3. 使用两个1x1卷积將其输出成两个tensor,并使用激活函数
  4. 与原始特征进行融合

公式演示如下:
f = δ ( F 1 ( [ z h , z w ] ) ) g h = σ ( F h ( f ) ) g w = σ ( F w ( f ) ) y c ( i , j ) = x c ( i , j ) × g c h ( i ) × g c w ( j ) f = \delta(F_1([z^h, z^w])) \\ g^h = \sigma(F_h(f))\\ g^w = \sigma(F_w(f))\\ y_c(i,j)=x_c(i,j) \times g_c^h(i) \times g_c^w(j) f=δ(F1([zh,zw]))gh=σ(Fh(f))gw=σ(Fw(f))yc(i,j)=xc(i,j)×gch(i)×gcw(j)

四、 Conclusion

CA block有两个优点:

  • 不仅是cross-channel,而且是direction-aware和position-sensitive的注意力模块。
  • 能够即插即用。
  • 普遍能涨点

但是作者在实验的时候使用的是MobileNetv2和MobileNeXt,为何不用MobileNetV3作为baseline呢~。

Reference

坐标注意力是一种新的注意力机制,通过将位置信息嵌入到通道注意力中,为移动网络提供了一种有效的方式来生成空间选择性注意力图。坐标注意力将通道注意力分解为两个一维特征编码过程,并沿空间方向聚合特征。这样做可以捕获远程依赖关系,并保留精确的位置信息。通过将得到的特征图编码成方向感知和位置敏感的注意力图,可以增强感兴趣对象的表示。坐标注意力可以灵活地插入到经典的移动网络中,几乎没有计算开销,并在下游任务中表现出更好的性能,如对象检测和语义分割。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [CVPR2021注意力机制——Coordinate Attention || Pytorch代码实现](https://blog.csdn.net/qq_42962681/article/details/120417410)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [注意力机制——Coordinate Attention](https://blog.csdn.net/qq_40716944/article/details/121787103)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值