文章目录
1 Background and Motivation
近年来,由于深度神经网络的发展,在目标检测方面取得了巨大的进展。现代的object detectors可以大致分为 single-stage(对默认的anchor进行直接的回归和分类)和 two-stage方法(先生成一系列候选框,然后再分类和回归这些候选框)。一般来说,two-stage在标准 benchmarks的精度上比single-stage方法占优势。
高质量的目标检测既需要对物体进行精确的定位(bounding box),又需要对物体进行精确的分类。 大多数现有的two-stage detectors在bounding box定位模块都共享相似的设计,一个典型的选择是使用回归模块,包括流行的Faster R-CNN也是使用的回归模块。如下图,传统 regression 分支一般由全连接层来预测 4 个边界框相关的调整量。最近,Grid R-CNN 中采用几个卷积层去预测几个 grid point 的 heat map,而后进行边界框的输出,其主要是对faster R-CNN框架中定位框回归支路的更改,将以往通过回归方式实现proposal位置修正的方法,更改为通过全卷积网络来实现目标定位框的精确修正。借助卷积层生成的heatmap来确定初始的网格点,并通过这些网格点确定定位框的四条边。
在本文中,作者引入密集局部回归( dense local regression)来精确目标定位。与在 Faster R-CNN中使用的传统回归(通过全连接网络预测单个全局偏移量)不同,本文中的密集局部回归(dense local regression)通过一个全卷积网络预测了多个局部box的偏移量。
与基于关键点定位的 Grid R-CNN相比,第一,本文的dense local regression可以更精确地定位一个对象,因为它能够回归任何数量的offset,因此它不局限于在一个固定大小区域内量化的一组关键点。第二,Grid R-CNN旨在提高定位能力,而dense local regression可以同时实现对目标的精确定位和精确分类。对于分类,作者引入了一个discriminative RoI pooling,它从 proposal的各个子区域中提取features,并执行adaptive weighting去获得discriminative features。
2 Related Work
近年来 two-stage检测方法在检测精度上已经实现了很好的性能,其中以Faster R-CNN最为突出,有很多都是基于它的扩展。
大多数two-stage detectors都是基于anchor box来表示目标, 有些single-stage也是用anchor free的方法,它们通常是基于关键点的方法来估计bounding box,通常是它们是 one-stage bottom-up 的方法,它们直接从整个图像生成关键点,而不需要定义实例,它们的关键步骤是识别哪些关键点属于同一实例,并对它们进行正确的分组。 Grid R-CNN.的方法是 top-down two-stage的方法,它首先定义实例,它关注的是如何更准确地定位边框的关键点,但是它也存在一些问题:
(1)目标定位问题:关键点搜索是在固定分辨率的特征空间(56×56)中进行的,对于较大的物体来说,这可能是一个问题。在这种情况下(如物体大小>100×100图像像素),相对较小的搜索空间可能导致定位精度较低。
MS COCO上,与Grid R-CNN相比,本文单一的稠密局部回归(没有分类分支的改进)在大目标检测获得了3.7%的增益。
(2)目标分类问题:Grid R-CNN只注重于提高定位能力,与原始Faster-RCNN相比,并没有做大的改进,保持了相似的原始分类分支。原来Faster-RCNN使用了RoIPool 对候选提案进行特征池,最近,RoIAlign在一些工作中取代了RoIPool。RoIAlign将候选方案划分为大小相同的空间子区域,并考虑方案内部子区域的特征。在每个子区域内得到4个采样点,并对所有采样点分配相等的权值进行平均。这可能会降低分类性能,因为区分区域可能不会出现在等距的子区域中。
本文介绍一种新方法,执行自适应加权,以增强区分特征分类。
3 Advantages/Contributions
- 本文提出了一种新颖的两阶段检测方法D2Det,它可以同时解决精确定位和精确分类的问题。
- 为了精确定位:引入了密集局部回归,该回归可以预测object proposal的多个密集框偏移。
与两阶段检测器中使用的传统回归和基于关键点的定位不同,本文的密集局部回归不限于固定区域内的一组量化的关键点,并且具有回归位置敏感实数密集偏移的能力,从而导致更多精确的定位。通过减少背景区域对最终盒回归的影响的二进制重叠预测策略,进一步改善了密集局部回归。 - 为了进行准确的分类:引入了判别式RoI合并方案,该方案可从proposal的各个子区域进行采样,并执行自适应加权以获得判别式特征。
- 目标检测:在MS COCO test-dev上,使用ResNet101主干网,本文的D2Det优于现有的两阶段方法,其单模型性能为45.4 AP。当使用多尺度训练和推理时,D2Det获得的AP为50.1。
- 实例分割:与最新技术相比,可实现40.2倍的蒙版AP加速。我们还通过在无人机图像(UAVDT数据集)中进行物体检测和在卫星图像(iSAID数据集)中进行实例分割的实验,证明了D2Det在机载传感器上的有效性。
4 Method
本文方法基于标准的Faster R-CNN框架。在本文的方法中,提出的密集局部回归代替了传统的Faster R-CNN的box偏移回归,同时通过 discriminative RoI pooling来改进分类。我们本文的两阶段检测框架的总体架构如图2(a)所示。
- 第一阶段采用区域建议网络(RPN),第二阶段采用独立的分类和回归分支
- 稠密的局部回归分支(图2(b))旨在对目标进行精确定位,而基于discriminative RoI pooling的分类分支(图2©)旨在改进 candidate proposals的分类。
4.1 Dense Local Regression
在两阶段的检测框架中,边界盒回归分支的目标是找到一个围绕对象的紧密边界盒。让
P
(
P
x
,
P
y
,
P
w
,
P
h
)
P(P_{x},P_{y},P_{w},P_{h})
P(Px,Py,Pw,Ph)作为candidate object proposal,
G
(
G
x
,
G
y
,
G
w
,
G
h
)
G(G_{x},G_{y},G_{w},G_{h})
G(Gx,Gy,Gw,Gh)作为target ground-truth box。FasterR-CNN中传统回归预测的边界盒偏移量
(
∆
x
,
∆
y
,
∆
w
,
∆
h
)
(∆x,∆y,∆w,∆h)
(∆x,∆y,∆w,∆h)为:
-
P ( x P , y P , w P , h P ) P(x_{P},y_{P},w_{P},h_{P}) P(xP,yP,wP,hP)是candidate object proposal
-
G ( x G , y G , w G , h G ) G(x_{G},y_{G},w_{G},h_{G}) G(xG,yG,wG,hG)是target ground-truth box
-
( x , y ) (x,y) (x,y)是 box 中心点
-
( w , h ) (w,h) (w,h)是box的宽和高
即对于 P P P,特性池策略,利用RoIPool或RoIAlign,从 proposal内等间距的k×k子区域中得到相应的固定尺寸(k×k) RoI特征。Faster R-CNN把这些ROI特征视为一个单一向量,它是一个全局特征表示,然后通过几个完全连接的层预测单个全局box offset,如下图。
与上述策略不同,我们的Dense Local Regression(密集局部回归)方法将k×k维的RoI特征视为 k 2 k^{2} k2个空间相邻的局部特征其中一个局部特征如图2(b)中的pi所示
这些局部RoI特征通过一个全卷积网络来预测多个局部box offset,称为密集盒偏移量。
密集盒偏移量用来预测每个(xi, yi)位置的局部特征pi到GT框左上和右下角的距离 。下面四个变量l、t、r、b分别表示在左上右下四个维度上的密集盒偏移量:
-
l i , t i , r i , b i l_{i},t_{i},r_{i},b_{i} li,ti,ri,bi是位置 i i i到ground-truth bounding box的四个ground-truth offset
-
( x l , y t ) (x_{l},y_{t}) (xl,yt), ( x r , y b ) (x_{r},y_{b}) (xr,yb)表示 ground-truth bounding box的左上角和右下角坐标
-
w P w_{P} wP和 h P h_{P} hP分别表示the width and height of the candidate proposal
局部特征的数量取决于 candidate proposal
P
P
P和
G
G
G的重合度,但是即使重合度高的时候,也会有非目标特征(例如背景特征)出现在这
k
2
k^{2}
k2个局部特征中。为了处理这种情况,采用二元重合度预测来对每个局部特征进行分类:
训练期间, the binary overlap prediction m ^ i \hat{m}_{i} m^i使用 sigmoid归一化。如果 σ ( m ^ i ) > 0.5 \sigma \left ( \hat{m}_{i} \right )>0.5 σ(m^i)>0.5,它就是1。
比较我们的密集局部回归©与传统的Faster-RCNN(a)和网格R-CNN(b)中的关键点定位。
- 与传统FasterR-CNN相比:传统FasterR-CNN回归使用全连接网络预测给定候选目标的单一全局偏移量(图3(a))。与传统回归不同,我们的密集局部回归使用全卷积网络产生多个位置敏感的盒偏移(图3©)。此外,我们的二元重叠预测器减少了背景区域对最终盒回归的影响。
- 与GridR-CNN中使用的基于关键点的定位策略(图3(b))相比:GridR-CNN与我们的方法类似,也使用了一个全卷积网络。但我们的密集局部回归能够回归任何实数偏移量,并且不局限于固定兴趣区域内量化的一组关键点,因此可以更准确地定位目标。此外,我们的方法不需要反卷积上采样操作来增加边界盒定位的空间分辨率,从而避免了额外的计算开销。
4.2 Discriminative RoI Pooling
与回归不同的是,分类需要高度的区分特征。本文的discriminative RoI pooling的灵感来自于deformable RoI pooling,并在两方面对其进行了改进。
-
首先,我们使用一种轻量级的偏移量预测,它需要大约四分之一的参数,与可变形RoIpooling中的标准偏移量预测相比。标准偏移量预测采用RoIAlign操作从k×k子区域中获取特征,并将这些特征通过三个完全连通的层。相反,轻量级偏移预测只需要一个k/2 * k/2大小的RoIAlign,然后是完全连接的层(轻量级是因为更小的输入向量)。
-
其次在偏移量预测之后,标准的deformable RoIpooling使用一个RoIAlign,在每个子区域内获得的四个采样点都被平均分配相等的权值。与此相反,本文提出的加权pooling的目的是自适应地分配更高的权值discriminative的采样点。例如下图中的右图,不同的采样点s1~s4被赋予不同的权值w1~w4。
-
⨀ \bigodot ⨀表示哈达玛积( Hadamard),即对应位置相乘
-
F ~ \tilde{F} F~表示Weighted RoI feature,加权的ROI特征
4.3 Instance Segmentation
通过修改密集局部回归分支,本文方法可以很容易地扩展到实例分割。
在下面公式中,作者使用实例分割中可用的ground-truth mask来标注局部特征pi∈P,而不是假设ground-truth边界盒G内的所有区域都属于对象。基于mask的ground-truth用来训练二值重叠预测和密集回归分支中的偏移预测(图2 (b))。在推理过程中,二值重叠预测来提供实例分割预测mask。
此外,作者利用两个反卷积层将输出空间分辨率提高4倍(即,从7×7到28×28)和两个全连接层来有效地进行mask scoring。
本文方法提供了一个高效的实例分割框架和较高的分割性能(见实验部分)。
5 Experiments
5.1 Dataset
- MS COCO和UAVDT
5.2 MS COCO Dataset
- State-of-the-art Comparison
当都使用带有FPN的ResNet101主干网络时,与当前的二阶段目标检测方法相比,D2Det效果要好很多,实现了最好的single model性能,达到45.4AP。当使用ResNet101-deform v2主干网络时,D2Det效果比DCN v2好,达到47.4AP。D2Det*意味着 multi-scale训练和实验,达到50.1AP。 - Qualitative Analysis
- Ablation Study
-
basline是 Faster R-CNN,当把DLR和DRP两个分支整合到basline中,AP提升了4.7%。
比较 dense local regression (DLR)和Grid R-CNN以及它的变形Grid R-CNN Plus,当单独比较DLR分支时,分类分支和其它两个分支一样。
5.3 UAVDT Dataset
除了LRF-Net,所有的方法都使用ResNet101 with FPN主干网络。与最近引入的NDFT检测器相比,本文的D2Det取得了优异的结果。
UAVDT Dataset上的定性结果,黑色区域被忽略。
5.4 Instance Segmentation
速度比HTC快2倍,mask AP40.2。
在 iSAID test set上的实例分割结果。
在COCO test-dev (top row) 和 iSAID test (bottom row)上的实例分割结果。
6 Conclusions
- 提出的 two-stage 检测方法D2Det,同时实现了精确定位和精确分类。
- 为了精确定位,引入的dense local regression分支,可以为一个proposal预测多个 box offsets
- 为了精确分类,提出一种 discriminative RoI pooling操作,它从一个proposal的各个子区域中采样,然后进行自适应加权来获得有区别的特征。