CVPR2019|【论文笔记】Region Proposal by Guided Anchoring

最新推荐文章于 2021-01-22 15:05:57 发布

青衣媚骨

最新推荐文章于 2021-01-22 15:05:57 发布

阅读量285

点赞数

分类专栏：论文笔记文章标签：神经网络计算机视觉

本文链接：https://blog.csdn.net/yushancherry/article/details/104531867

版权

论文笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文原址 https://arxiv.org/abs/1901.03278
代码地址：https://github.com/open-mmlab/mmdetection
2019年，香港中文大学 SenseTime 联合实验室，新加坡南洋理工大学联合发表的论文。文章提出Guided Anchoring，基于语义特征指导anchor生成。
主要思想是定位可能的目标中心点，然后根据中心点设置最优的anchor box。相比于RPN baseline，使用Guided Anchoring方法在MS COCO数据集上的anchor数减少了90%，而召回率则提升了9.1%。此外，将其用于Fast-RCNN、Faster R-CNN以及RetinaNet，检测mAP分别提升了2.2%、2.7%和1.2%。

Introduction

anchors是预测proposals或最终BBoxes的回归参考和分类候选。目前大多目标检测的方法都是产生大量密集的anchors。
对于合适的anchors，有两个基本的规则：alignment和consistency。（精准一致）首先，使用卷积特征作为anchor的表征，anchor中心需要和特征图像素一致。其次，感受野和语义范围要与特征图不同位置的anchors大小和形状一致。这样一致的Anchors规则会产生两个困难，一是必须为不同的问题预先定义一套简洁的固定高宽比的anchors。错误的设计会妨碍检测器的速度和准确率。二是为了保持高召回率，需要大量的足够的anchors，但是其中大部分是与目标对象无关的负样本。
基于以上的问题，本文提出了一个更高效的预测anchors的方法。此方法分两步生成稀疏anchors。首先识别可能包含对象的子区域然后决定不同位置的形状。可学习的anchors是有前景的，但是它打破了一致性规则。因此，不同的feature map像素必须学习适应与相应的anchor自适应表示。基于这个问题，文章出一个基于anchor特征的自适应模块。
文章提出的GA-RPN方法，相比于RPN，召回率提高了9.1%，减少了90%的anchor。文章的4个贡献：

提出一个可以预测非统一的，任何形状而不是密集的预设的anchors新方案。
用两个因式条件分布表示联合anchor分布。分别设计两个模块进行建模
研究了anchor与特征对齐的重要性并且设计一个基于anchor形状特征的适应模型来细化特征。
研究了二阶段检测器中高质量proposal的使用，提出一个可以改进训练模型性能的方案。

Guided Anchoring

文章模型的框架
一个目标的位置额形状可以用一个4维数组(x,y,w,h)描述。它的位置和形状可以被认为服从一个以image I 为条件的分布。
在这里插入图片描述
对于给定的图像I，首先得到一个特征图FI。在FI上，位置预测分支产生一个概率图，指示目标位置的可能性，形状预测分支预测位置相关的形状。考虑两个分支的输出，选择预测概率超过某个阈值并且每个选择的位置最可能的形状来生成
一组anchors。anchor的形状是变化的，不同位置的特征应该捕捉到不同范围内的视觉内容。因此，文章提出了一个特征适应模型，可以根据anchor形状调整特征。

anchor location prediction

anchor位置预测长生一个和输入特征图F1同尺寸的概率图p(|FI)，每个输入p(i,j|FI)和中心坐标为((i+1/2)s,(j+1/2)s)的一致。输入值表示存在于目标中心存在于那个位置的可能性。
概率图用一个子网络NL产生。对基础feature map先通过1*1卷积，然后逐元素Sigmoid转换为概率值。然后根据阈值筛选，可以过滤掉90%的区域而保持相同的召回率。

anchor shape prediction

给定一个feature map FI，预测每个位置的最优形状(w, h)，也就是与最近的groundtruth的bounding box的IoU最大的shape。考虑到w和h的取值范围较大，所以先做如下转化：
在这里插入图片描述
其中s是步长，σ是经验尺度因子（文中取8）。可以将[0, 1000]压缩至[-1, 1]。该分支输出dw和dh。首先通过1*1卷积层产生两个通道的map（包括dw和dh的值），然后经过逐元素转换层实现w和h的转化。得益于任意形状的anchor，所以对于宽高比夸张的目标也具有更好的效果（比如火车等）。

anchor-guided Feature adaptation

由于每个位置的形状不同，大的anchor对应较大感受野，小的anchor对应小的感受野。所以不能像之前基于anchor的方法那样直接对feature map进行卷积来预测，而是要对feature map进行feature adaptation。作者利用变形卷积的思想，根据形状对各个位置单独进行转换：
在这里插入图片描述
其中，fi是第i个位置的特征，(wi, hi)是对应的anchor形状。NT通过3*3的变形卷积实现。首先通过形状预测分支预测offset field，然后对带偏移的原始feature map做变形卷积获得adapted features。之后进一步做分类和bounding box回归。

Training

采用多任务loss进行端到端的训练，损失函数为：
在这里插入图片描述

anchor location

利用groundtruth bounding box来指导label生成，1代表有效位置，0代表无效位置。中心附近的anchor应该较多，而远离中心的anchor数目应该少一些。假定R(x, y, w, h)表示以(x, y)为中心，w和h分别为宽高的矩形区域。将groundtruth的bbox(xg, yg, wg, hg)映射到feature map的尺度得到(x’g, y’g, w’g, h’g)。