paper reading:《Grid R-CNN》

在这里插入图片描述
CVPR 2018
论文链接: https://arxiv.org/pdf/1811.12030.pdf
Grid R-CNN是商汤科技最早发表于arxiv的一篇目标检测的论文,对于Faster R-CNN架构的目标坐标回归部分进行了替换,取得了更加精确的定位精度。

该文所有作者均来自于商汤科技,Grid用来修饰R-CNN,意即将目标检测中位置定位转化为目标区域网格点的定位。

1 Background and Motivation

目标检测任务可以分为目标分类和定位问题。近年来,许多基于深度卷积神经网络(CNN)的检测框架被提出,并得到了很好的结果。虽然这些方法在很多方面提高了检测性能,但是它们的bounding box定位模块是相似的。非常典型的bounding box定位模块是一个回归分支,它被设计为几个全连接层,并采用高级(high-level)特征映射来预测候选框(proposal or predefined anchor)的偏移量。

在这里插入图片描述
如上图,在目前的R-CNN目标检测算法,在目前的R-CNN目标检测算法中,目标的2个点(比如左上和右下)就能表征其位置,将目标的定位看为回归问题,即将ROI特征flatten成向量,后接几个全连接层回归目标的坐标偏移量和宽高。
作者认为,这种处理方式没能很好的利用特征的空间信息。
作者希望利用全卷积网络的精确定位能力计算目标位置,将2个目标点的回归问题,转化为目标区域网格点(Grid Points)的定位问题。目标区域的网格点位置是全卷积网络的监督信息,因为是直接将目标区域等分,是可以直接计算的。网络推断时,计算heatmap的极值,即为求得的网格点(Grid Points)。

本文作者提出了一个新的目标检测框架------ Grid R-CNN,它使用一个网络指导机制来代替原来的传统的回归方式,它将bound ing box区域分成网格,然后使用一个全卷积网络去预测网格点位置。由于FCN对位置的敏感性,因此Grid R-CNN保持了显式的空间信息,可以在像素级上获得网格点的位置。
另一方面,虽然目标的2个点(比如左上和右下)就能表征其位置,但是由于点的位置与局部特征不直接对应,因此预测并不容易。比如下图框起来的位置,它不在猫身上,它周围的像素也都是背景像素,因此它可能与附近的背景像素共享相似的局部特征。为了解决这个问题,作者提出了多点监督方案,比如下图,右上点(红色框框)的y坐标可能预测不太准确,我们可以根据与它在同一边界的中点(蓝色框框)的y坐标来修正。它降低了整体的预测偏差。

最后,Grid R-CNN为了充分利用网格中各点之间的相关性,提出了一种信息融合方法。具体来说,每个网格点都有单独的特征图。对于一个网格点,收集与它相邻网格点的特征图,融合成一个完整的特征图,利用整合的特征图对这一个网格点进行位置预测,这充分利用了其它网格点的信息,使得预测出的该网格点的位置更加准确。

2 Related Work

Two-stage object detector(region based):eg:R-CNN、SPP-Net 、 Fast-RCNN、Faster-RCNN、 R-FCN、FPN、 Mask R-CNN
Mask R-CNN是在Faster-RCNN上添加一个mask分支来进行扩展的,与它不同的是,本文的方法是用一个新的网格分支对回归分支进行重新定位,使回归分支更准确地定位目标。
single-stage object detector:eg:CornerNet, 它是一个one-stage bottom-up 的方法,它直接从整个图像生成关键点,而不需要定义实例,它的关键步骤是识别哪些关键点属于同一实例,并对它们进行正确的分组。本文的方法是 top-down two-stage的方法,它首先定义实例,它关注的是如何更准确地定位边框的关键点。

3 Advantages/Contributions

  • 本文提出了一个新的定位框架-----Grid R-CNN,它用一个全卷积网络来代替以前的回归网络,可以有效的保存空间信息。Grid R-CNN是第一个提出的通过在像素集上预测网格点来定位目标的 region based的检测框架
  • 为了减少一些不准确点的影响,在预测网格中的点的时候设计了一种多点监督。还提出了一种特征图级信息融合机制,它可以充分利用各个点之间的相关性,因此可以更精确的预测出点的位置。
  • 进行了大量实验,证明了Grid R-CNN性能非常好。

4 Method

作者改造的是Faster R-CNN的目标定位部分,它的整体框架如下:
在这里插入图片描述
前半部分与Faster R-CNN相同,在得到目标候选区域和ROI特征后,分类部分进行目标分类,而定位部分接全卷积网络,其监督信息来自根据目标位置计算得到的网格监督信息。
流程图中作者特别标出了特征融合模块(feature fusion module),其意在使用网格中相邻网格点的位置相关性,融合特征使得定位更加精确。

4.1. Grid Guided Localization

将目标区域划为网格,目标的定位即转化为网格点的定位。

训练时,ROI特征(1414大小)通过8个33空洞卷积,再通过两个反卷积把尺寸扩大(56*56),再通过一个卷积生成与网格点相关的 heatmaps(9 个点就是 9 张图,后文实验也使用了4个点的情况)。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数,在heapmaps上得到概率图。

推断时,将heapmaps极值的位置映射回原图,即得到了网格点的位置。
将目标区域划为网格,目标的定位即转化为网格点的定位。

训练时,ROI特征(1414大小)通过8个33空洞卷积,再通过两个反卷积把尺寸扩大(56*56),再通过一个卷积生成与网格点相关的 heatmaps(9 个点就是 9 张图,后文实验也使用了4个点的情况)。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数,在heapmaps上得到概率图。

推断时,将heapmaps极值的位置映射回原图,即得到了网格点的位置。
将目标区域划为网格,目标的定位即转化为网格点的定位。

训练时,ROI特征(1414大小)通过8个33空洞卷积,再通过两个反卷积把尺寸扩大(56*56),再通过一个卷积生成与网格点相关的 heatmaps(9 个点就是 9 张图,后文实验也使用了4个点的情况)。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数,在heapmaps上得到概率图。

推断时,将heapmaps极值的位置映射回原图,即得到了网格点的位置。
在这里插入图片描述
读到这里,读者可能会有一个疑问,即计算得到的网格点组成的形状是方方正正的,而Heapmaps极值得到的网格点未必组合在一起是方方正正的,不好确定目标区域。

作者的方法是对原本应该具有相同x或者y坐标的网格点的坐标进行平均。
在这里插入图片描述
到此,即得到了目标位置。

4.2. Grid Points Feature Fusion

很显然,网格点之间具有内在的联系,相邻网格点之间可以相互校正位置提高定位精度。

为此,作者设计了网格点特征融合的机制。

首先,在计算网格点heapmaps时,每个网格点使用不同的滤波器组,防止它们之间共用特征以至相互影响。

然后在每个网格点的Heapmap出来后,将相邻网格点的Heapmaps经过卷积滤波与其相加,形成新heapmap。
在这里插入图片描述
作者将距离特定网格点最近的相邻网格点(1个单位网格长度)组成的网格点集合的特征融合称为一阶特征融合,次近的相邻网格点(2个单位网格长度)组成的网格点集合的特征融合称为二阶特征融合。下图中(a)(b)分别展示了此融合过程。

在这里插入图片描述

4.3. Extended Region Mapping

这一步主要是为了应对在实际使用中,RPN 给出的 proposal并不总是将完整物体包含在内。如下图:
在这里插入图片描述
图中白色的实线框表示 RPN 给出的候选框,它没有完全包含所有的网格点。

而作者指出,简单的扩大候选框的大小,不会带来提升,甚至降低对小物体检测的精度(后面有实验验证)。

作者认为heatmap的感受野其实是很大的,并不限于候选框内,所以就干脆直接将heatmap对应的区域看成候选框覆盖的区域两倍大(如图中虚线围起来的区域)。

这么做的好处是,只需简单修改网格引导定位中的位置映射公式。即
在这里插入图片描述

5 Experiments

5.1. Ablation Study

作者首先研究了算法中网格点数对精度的影响。如下图:
在这里插入图片描述
相比回归的方法,Grid R-CNN精度更高,而且随着点数增加精度也在提高。比较AP0.5和AP0.75发现,精度提升主要来自高IoU阈值的情况。

其次,作者实验了网格点特征融合策略对性能的影响。如下图:
在这里插入图片描述
可见该文提出的特征融合策略是有效的,而且二阶特征融合更加有效。

然后,作者实验了扩展区域映射对精度的影响。如下图:

在这里插入图片描述
可见,直接扩大候选框区域的方法伤害了精度,而本文提出的扩展区域映射(extended region mapping)的方法则使精度有较大的提高(1.2个AP)。

5.2. Comparison with State-of-the-art Methods

作者又在主流的目标检测数据库上与state-of-the-art进行了比较。

下图展示了在Pascal VOC数据集上,相比R-FCN、FPN,使用相同骨干网的情况下,精度取得了极大的提升!
在这里插入图片描述

在COCO minival数据集上的实验,同样取得了较大幅度精度提升。
在这里插入图片描述

在COCO test-dev数据集上也实现了一骑绝尘!如下图:
在这里插入图片描述

5.3. Analysis and Discussion

与Faster R-CNN相比,发现精度提升主要来自高IoU阈值的部分,如下图所示。

所以作者猜测,Grid定位分支也许轻微影响了分类的分支。
在这里插入图片描述
下图是一些目标的定位示例(请点击大图查看):
在这里插入图片描述
作者最后列出了Grid R-CNN对各目标类别的精度增益,发现那些矩形和长方形目标(例如键盘,笔记本电脑,叉子,火车和冰箱)往往获得更大的精度增益,而具有圆形性质的物体(例如运动球,飞盘,碗,钟和杯子)则性能下降或获得较小的增益。
在这里插入图片描述

6 Conclusions

该文反思了目标检测中的定位问题,提出以覆盖目标的网格点作为监督信息使用全卷积网络定位网格点的方法,大幅提高了目标定位精度。值得研究目标检测的朋友学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值