FaPN: Feature-aligned Pyramid Network for Dense Image Prediction 论文笔记

FaPN: Feature-aligned Pyramid Network for Dense Image Prediction

FaPN ICCV2021

论文链接: https://arxiv.org/abs/2108.07058

一、 Problem Statement

尤其对于dense prediction任务来说,对于目标定位需要丰富的空间细节和对于分类来说需要较好的语义信息。 如何有效地生成不同尺度的特征层成为处理dense prediction任务时需要克服的关键障碍之一。一般有两个方向:

  • 使用不同atrous rate的空洞卷积
  • 使用top-down feature pyramid

而FPN网络中,对于上upsampling feture和local feature的直接相加,会导致特征图特征映射的上下文不对齐(feature misalignment),进而导致预测中的错误分类。 对于使用没有可学习参数的upsampling操作(nearst neighbor),更加会导致misalignment的问题。这样反复堆叠的upsampling和downsampling,会反作用于接下来的网络层。最终导致mis-classification,特别是在目标边界周围。

二、 Direction

提出feature alginment modulefeature selection module。前者通过调整卷积核中的每个采样位置和学习的偏移量,学习将上采样特征映射与一组参考特征映射对齐。后者自适应地学习包含较多空间细节的bottom-up的特征地图,从而实现精确定位。然后,将这两个模块集成到top-down的金字塔结构中,并提出了特征对齐金字塔网络(FaPN)

三、 Method

先来看一下网络结构:

可以看到,对比与FPN结构,多了两个模块 FSM和FAM。

1. Feature Alignment Module(FAM)

由于重复使用downsampling操作,对于其和upsampled特征图会存在spatial misalignment。因此,直接使用element-wise addition或者channal-wise concatenation的融合会损害目标边界的预测。因此,在特征融合之前,把上采样和下采样的特征对齐是很重要的。例如,根据上采样特征图 C C C所提供的空间位置信息,调整下采样特征图 P P P。下图是具体的结构:

FAM的过程可以看作是两个步骤:

  • 从上采样和下采样特征图中,学习偏差offsets( Δ i \Delta_i Δi)
    Δ i = f o ( [ C ^ i − 1 , P i u ] ) \Delta_i = f_o([\hat{C}_{i-1}, P_i^u]) Δi=fo([C^i1,Piu])
  • 將偏差作用于下采样特征图 P P P,进行对齐
    P ^ i u = f a ( P i u , Δ i ) \hat{P}_i^u=f_a(P_i^u, \Delta_i) P^iu=fa(Piu,Δi)

其中, f o , f a f_o, f_a fo,fa都是由3X3的deformable convolution,activation和同样卷积核大小的标准卷积组成。

deformable convolution可以根据offsets来调整卷积采样的位置,使得特征 P P P根据 C C C P P P的空间距离进行对齐。

2. Feature Selection Module(FSM)

作者受到了SE block的灵感,提出了FSM模块。在对特征进行通道缩减之前,需要提取空间细节的特征映射,以实现精确分配,同时抑制冗余特征映射。 一般使用1X1卷积进行通道缩减操作,但是FSM可以准确地提取特征重要的信息并且重新校准它们。

FSM 也可以看成是两个步骤:

  • 提取feature importance vector
    u = f m ( z ) u=f_m(z) u=fm(z)
  • 选择重要的特征
    C ^ i = f s ( C i + u ∗ C i ) \hat{C}_i = f_s(C_i + u*C_i) C^i=fs(Ci+uCi)

其中 z z z是由特征图 C i C_i Ci进行global average pooling之后得到的, f m ( ⋅ ) f_m(\cdot) fm()是1X1卷积层和sigmoid activation layer。得到的importance vectore u u u 对原始的特征 C i C_i Ci进行scale之后,再与其本身进行相加。最后 f s f_s fs操作是一个1X1卷积层,用于保持feature maps重要的通道和丢掉不重要的通道(channel reduction)。

与SE block的差别是:

  • 在input和scaled feature maps多了一个skip connection。 这可以避免任何特定通道响应将被过度放大或被抑制。
  • SE通常用于用于增强特征提取的backbone,而FSM用于neck(top-down pathway),用于增强多尺度特征聚合。此外,FSM的选定/缩放特征也作为FAM学习alignment offsets的参考。

四、 Conclusion

FaPN改进了FPN和SE模块,使用了deformable卷积提供了卷积核的offsets,类似于一种注意力机制,一个是卷积核注意力机制,一个是通道注意力机制。对于小目标检测或者目标边界有改进的效果。

Reference

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值