GA-RPN：Region Proposal by Guided Anchoring

代码的路

已于 2022-07-26 11:01:49 修改

阅读量1.8k

点赞数

分类专栏：孪生网络SiamRPN 文章标签：计算机视觉目标检测

于 2019-04-23 20:19:51 首次发布

本文链接：https://blog.csdn.net/zbzcDZF/article/details/89480188

版权

孪生网络SiamRPN 专栏收录该内容

9 篇文章

订阅专栏

原文链接

论文地址：https://arxiv.org/pdf/1901.03278.pdf

代码地址：GitHub - open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark

1. RPN

RPN即Region Proposal Network，是用RON来选择感兴趣区域的，即proposal extraction。例如，如果一个区域的p>0.5，则认为这个区域中可能是80个类别中的某一类，具体是哪一类现在还不清楚。到此为止，网络只需要把这些可能含有物体的区域选取出来就可以了，这些被选取出来的区域又叫做ROI（Region of Interests），即感兴趣的区域。当然RPN同时也会在feature map上框定这些ROI感兴趣区域的大致位置，即输出Bounding Box。

详细介绍：RPN：Region Proposal Networks (区域候选网络)_代码的路的博客-CSDN博客_rpn矩阵

2.Guided Anchoring

通常用（x,y,w,h）来描述一个anchor，即中心点坐标和宽高。文章将anchor的分布用条件概率来表示，公式为

两个条件概率的分布，代表给定图像特征之后anchor的中心点概率分布，和给定图像特征和中心点之后的形状概率分布。这样看来，原来我们所获取anchor的方法就可以看成上述条件概率分布的一个特例，即p(x,y|I)是均匀分布而p(w,h|x,y,I)是冲激函数。

根据上面的公式，anchor的生成过程可以分解为两个步骤，anchor位置预测和形状预测。

论文中用到的方法如下：

这个框架就是在原始的RPN的特征图基础上，采用两个分值分别预测anchor的位置和形状，然后再结合到一起得到anchor。之后采用一个Feature Adaption模块进行anchor特征的调整，得到新的特征图供之后的预测使用（anchor的分类和回归）。整个方法可以端到端训练，而且相比之前只是增加了3个1×1 conv 和一个3×3 deformable conv，带来的模型参数量变化很小。

（1）位置预测

位置预测分支的目标是预测哪些区域应该作为中心点来生成anchor，也是一个二分类问题，但是不同于RPN的分类，我们并不是预测每个点是前景还是背景，而是预测是不是物体中心。

我们将整个feature map的区域分为物体中心区域、外围区域和忽略区域，大致思路就是将groundtruth 框的中心一小块对应在feature map上的区域标为物体中心区域，在训练的时候作为正样本，其余区域按照离中心的距离标为忽略或者负样本。最后通过选择对应概率值高于预定阈值的位置来确定可能存在对象活动的区域。对输入的特征图使用1×1的卷积，得到与相同分辨率的输出，得到输出的每个位置的值表示原图I上对应位置出现物体的可能性，也就是概率图，最后通过选择对应概率值高于预定阈值的位置来确定可能存在对象活动的区域。

通过位置预测，我们可以筛选出一小部分区域作为anchor的候选中心点位置，使得anchor数量大大降低。这样在最后我们就可以只针对有anchor的地方进行计算。

（2）形状预测

形状预测分支是目标是给定anchor中心点，预测最佳的长和宽，这是一个回归问题。

采用1×1的卷积网络输入，输出与尺寸相同的2通道的特征图，每个通道分别代表dw和dh，表示每个位置可能的最好的anchor尺寸。虽然我们的预测目标是w和h，但是直接预测这两个数字不稳定，因为范围很大，所以将空间近似[0,1000]映射到了[-1,1]中，公式为：

其中s是步幅，σ是经验因子，实验中取σ=8。实验中产生dw，dh的双通道映射,通过这个方程实现了逐像素转换。文章中直接用IOU作为监督来学习w和h。

对于anchor和ground truth匹配问题，传统RPN都是直接计算anchor和所有ground truth的IOU，然后将anchor匹配给IOU最大的那个ground truth，但是现在由于我们的改进，anchor的w和h都是不确定的，是一个需要预测的变量。文中将这个anchor和某个ground truth的IOU表示为

我们不可能把所有可能的w和h遍历一遍求IOU的最大值，文中采用了9组可能的w和h作为样本，近似效果已经足够。

到这里我们就可以生成anchor了。这时所生成的anchor就是稀疏而且每个位置不一样的。实验可得此时的平均recall已经超过普通的RPN了，仅仅是增加了两个conv。

（3）特征精调模块

由于每个位置的形状不同，大的anchor对应较大感受野，小的anchor对应小的感受野。所以不能像之前基于anchor的方法那样直接对feature map进行卷积来预测，而是要对feature map进行feature adaptation。作者利用可变形卷积（deformable convolution）的思想，根据形状对各个位置单独进行转换。