Cascade RPN: Delving into high-quality region proposal network with Adaptive Convolution


🔗:https://proceedings.neurips.cc/paper/2019/file/d554f7bb7be44a7267068a7df88ddd20-Paper.pdf
💻:https://github.com/thangvubk/Cascade-RPN

本文提出的Cascade RPN旨在提高候选区的质量。通过解决传统 RPN 启发式定义锚点并将特征与锚点对齐的局限性来提高候选区的质量和检测性能。

  1. multi-stage refinement. 在第一阶段使用anchor-free,在随后阶段使用anchor-based metrics.
  2. 提出了adaptive convolution,在训练过程中加入锚点进行指导。从而通过锚点来学习样本特征。

与传统RPN相比AR提高了13.4%, 在Fast R-CNN 和 Faster R-CNN上mAP分别提高了3.1%和3.5%。

背景介绍

  • Anchor 定义:锚点由scale和aspect ratio组成,在目标检测中需要设置一系列不同的尺度和纵横比来获得足够多的与目标物体高度重合的正样本。
  • 对齐:提取出的image features与reference boxes对应。在R-CNN中,对齐由RoIPool或者RoIAligh确保。在RPN中anchor boxes是统一初始化。使用常规的滑动卷积会对性能的提升有限制:
    • 由于锚点是统一初始化的,而reference在图片上是随机分布的,RPN在回归的时候需要学习很大的方差。如果stage 1 能被很好的学习,那么stage 2会是一个较小方差的分布。由下图(b)可以看出,iterative RPN并不能有很好的效果。具体可以及时为:在stage 1之后,anchor虽然与ground truth更接近了,但是打破了对齐规则。

请添加图片描述

相关工作(Multi-stage RPN.)

已经有许多研究试图提高 RPN 的性能 。总体趋势是执行多阶段细化,将一个阶段的输出作为下一个阶段的输入并重复直到获得准确的定位。然而,这种方法忽略了回归框与图像特征未对齐的问题,打破了目标检测所需的对齐规则。为了缓解这个问题,最近的先进方法依靠可变形卷积来执行特征空间变换,并期望学习的变换与锚几何的变化保持一致。但是,由于没有明确的监督来学习特征变换,很难确定改进是源于符合对齐规则还是源于可变形卷积的好处,从而使其难以解释。
请添加图片描述

Adaptive Convolution (自适应卷积)

在标准2D卷积过程中,location p on the output feature y可以表示为:
y [ p ] = Σ r ∈ R w [ r ] ⋅ x [ p + r ] y[p] = \Sigma_{r \in R} w[r] \cdot x[p+r] y[p]=ΣrRw[r]x[p+r]
在adaptive convolution中,
y [ p ] = Σ o ∈ O w [ o ] ⋅ x [ p + o ] y[p] = \Sigma_{o \in O} w[o] \cdot x[p+o] y[p]=ΣoOw[o]x[p+o]
o = o c t r + o s h p o = o_{ctr}+o_{shp} o=octr+oshp
(center offset and shape offset).
请添加图片描述
常规卷积连续地采样特征,空洞卷积则根据膨胀按间隔采样特征,可变形卷积则根据学习的偏移来增大采样的空间位置,这是不规则的。而论文提出的自适应卷积则能保证在anchor内进行采样,是规则的,确保特征与anchor对齐。

Cascade RPN Algorithm

请添加图片描述
在stage1中,anchor是均匀分布在图片上。
在stage2-stage τ \tau τ中,根据 o = o c t r + o s h p o = o_{ctr}+o_{shp} o=octr+oshp计算出anchor的偏移程度,并通过regressor计算出回归值,在产生精调的anchor。
在最后的stage中,进行分类并且使用NMS得到最后的候选区域。

损失函数

Cascade RPN can be trained in an end-to-end manner using multi-task loss:
L = λ Σ τ = 1 T α τ L r e g τ + L c l s L = \lambda \Sigma_{\tau = 1}^{T} \alpha ^{\tau} L_{reg} ^{\tau} + L_{cls} L=λΣτ=1TατLregτ+Lcls
L c l s L_{cls} Lcls 使用的是binary cross entropy loss, L r e g L_{reg} Lreg 使用的是regression loss。

Results

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值