paper reading：《Grid R-CNN》

最新推荐文章于 2024-05-25 09:47:13 发布

小苑同学

最新推荐文章于 2024-05-25 09:47:13 发布

阅读量353

点赞数

分类专栏：图像分割论文阅读笔记文章标签：卷积定位神经网络

本文链接：https://blog.csdn.net/yuansiming0920/article/details/108147462

版权

图像分割论文阅读笔记专栏收录该内容

23 篇文章 3 订阅

订阅专栏

在这里插入图片描述
CVPR 2018
论文链接： https://arxiv.org/pdf/1811.12030.pdf
Grid R-CNN是商汤科技最早发表于arxiv的一篇目标检测的论文，对于Faster R-CNN架构的目标坐标回归部分进行了替换，取得了更加精确的定位精度。

该文所有作者均来自于商汤科技，Grid用来修饰R-CNN，意即将目标检测中位置定位转化为目标区域网格点的定位。

1 Background and Motivation

目标检测任务可以分为目标分类和定位问题。近年来，许多基于深度卷积神经网络(CNN)的检测框架被提出，并得到了很好的结果。虽然这些方法在很多方面提高了检测性能，但是它们的bounding box定位模块是相似的。非常典型的bounding box定位模块是一个回归分支，它被设计为几个全连接层，并采用高级（high-level）特征映射来预测候选框(proposal or predefined anchor)的偏移量。

在这里插入图片描述
如上图，在目前的R-CNN目标检测算法，在目前的R-CNN目标检测算法中，目标的2个点（比如左上和右下）就能表征其位置，将目标的定位看为回归问题，即将ROI特征flatten成向量,后接几个全连接层回归目标的坐标偏移量和宽高。
作者认为，这种处理方式没能很好的利用特征的空间信息。
作者希望利用全卷积网络的精确定位能力计算目标位置，将2个目标点的回归问题，转化为目标区域网格点（Grid Points）的定位问题。目标区域的网格点位置是全卷积网络的监督信息，因为是直接将目标区域等分，是可以直接计算的。网络推断时，计算heatmap的极值，即为求得的网格点（Grid Points）。

本文作者提出了一个新的目标检测框架------ Grid R-CNN，它使用一个网络指导机制来代替原来的传统的回归方式，它将bound ing box区域分成网格，然后使用一个全卷积网络去预测网格点位置。由于FCN对位置的敏感性，因此Grid R-CNN保持了显式的空间信息，可以在像素级上获得网格点的位置。
另一方面，虽然目标的2个点（比如左上和右下）就能表征其位置，但是由于点的位置与局部特征不直接对应，因此预测并不容易。比如下图框起来的位置，它不在猫身上，它周围的像素也都是背景像素，因此它可能与附近的背景像素共享相似的局部特征。为了解决这个问题，作者提出了多点监督方案，比如下图，右上点（红色框框）的y坐标可能预测不太准确，我们可以根据与它在同一边界的中点（蓝色框框）的y坐标来修正。它降低了整体的预测偏差。

最后，Grid R-CNN为了充分利用网格中各点之间的相关性，提出了一种信息融合方法。具体来说，每个网格点都有单独的特征图。对于一个网格点，收集与它相邻网格点的特征图，融合成一个完整的特征图，利用整合的特征图对这一个网格点进行位置预测，这充分利用了其它网格点的信息，使得预测出的该网格点的位置更加准确。

2 Related Work

Two-stage object detector（region based）：eg:R-CNN、SPP-Net 、 Fast-RCNN、Faster-RCNN、 R-FCN、FPN、 Mask R-CNN
Mask R-CNN是在Faster-RCNN上添加一个mask分支来进行扩展的，与它不同的是，本文的方法是用一个新的网格分支对回归分支进行重新定位，使回归分支更准确地定位目标。
single-stage object detector：eg:CornerNet, 它是一个one-stage bottom-up 的方法，它直接从整个图像生成关键点，而不需要定义实例，它的关键步骤是识别哪些关键点属于同一实例，并对它们进行正确的分组。本文的方法是 top-down two-stage的方法，它首先定义实例，它关注的是如何更准确地定位边框的关键点。

3 Advantages/Contributions

本文提出了一个新的定位框架-----Grid R-CNN，它用一个全卷积网络来代替以前的回归网络，可以有效的保存空间信息。Grid R-CNN是第一个提出的通过在像素集上预测网格点来定位目标的 region based的检测框架
为了减少一些不准确点的影响，在预测网格中的点的时候设计了一种多点监督。还提出了一种特征图级信息融合机制，它可以充分利用各个点之间的相关性，因此可以更精确的预测出点的位置。
进行了大量实验，证明了Grid R-CNN性能非常好。

4 Method

作者改造的是Faster R-CNN的目标定位部分，它的整体框架如下：
在这里插入图片描述
前半部分与Faster R-CNN相同，在得到目标候选区域和ROI特征后，分类部分进行目标分类，而定位部分接全卷积网络，其监督信息来自根据目标位置计算得到的网格监督信息。
流程图中作者特别标出了特征融合模块（feature fusion module），其意在使用网格中相邻网格点的位置相关性，融合特征使得定位更加精确。

4.1. Grid Guided Localization

将目标区域划为网格，目标的定位即转化为网格点的定位。

训练时，ROI特征（1414大小）通过8个33空洞卷积，再通过两个反卷积把尺寸扩大（56*56），再通过一个卷积生成与网格点相关的 heatmaps（9 个点就是 9 张图，后文实验也使用了4个点的情况）。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数，在heapmaps上得到概率图。

推断时，将heapmaps极值的位置映射回原图，即得到了网格点的位置。
将目标区域划为网格，目标的定位即转化为网格点的定位。

推断时，将heapmaps极值的位置映射回原图，即得到了网格点的位置。
在这里插入图片描述
读到这里，读者可能会有一个疑问，即计算得到的网格点组成的形状是方方正正的，而Heapmaps极值得到的网格点未必组合在一起是方方正正的，不好确定目标区域。

作者的方法是对原本应该具有相同x或者y坐标的网格点的坐标进行平均。
在这里插入图片描述
到此，即得到了目标位置。

4.2. Grid Points Feature Fusion

很显然，网格点之间具有内在的联系，相邻网格点之间可以相互校正位置提高定位精度。

为此，作者设计了网格点特征融合的机制。

首先，在计算网格点heapmaps时，每个网格点使用不同的滤波器组，防止它们之间共用特征以至相互影响。

然后在每个网格点的Heapmap出来后，将相邻网格点的Heapmaps经过卷积滤波与其相加，形成新heapmap。
在这里插入图片描述
作者将距离特定网格点最近的相邻网格点（1个单位网格长度）组成的网格点集合的特征融合称为一阶特征融合，次近的相邻网格点（2个单位网格长度）组成的网格点集合的特征融合称为二阶特征融合。下图中（a）（b）分别展示了此融合过程。

在这里插入图片描述

4.3. Extended Region Mapping

这一步主要是为了应对在实际使用中，RPN 给出的 proposal并不总是将完整物体包含在内。如下图：
在这里插入图片描述
图中白色的实线框表示 RPN 给出的候选框，它没有完全包含所有的网格点。

而作者指出，简单的扩大候选框的大小，不会带来提升，甚至降低对小物体检测的精度（后面有实验验证）。

作者认为heatmap的感受野其实是很大的，并不限于候选框内，所以就干脆直接将heatmap对应的区域看成候选框覆盖的区域两倍大（如图中虚线围起来的区域）。

这么做的好处是，只需简单修改网格引导定位中的位置映射公式。即
在这里插入图片描述

5 Experiments

5.1. Ablation Study

作者首先研究了算法中网格点数对精度的影响。如下图：
在这里插入图片描述
相比回归的方法，Grid R-CNN精度更高，而且随着点数增加精度也在提高。比较AP0.5和AP0.75发现，精度提升主要来自高IoU阈值的情况。

其次，作者实验了网格点特征融合策略对性能的影响。如下图：
在这里插入图片描述
可见该文提出的特征融合策略是有效的，而且二阶特征融合更加有效。

然后，作者实验了扩展区域映射对精度的影响。如下图：

在这里插入图片描述
可见，直接扩大候选框区域的方法伤害了精度，而本文提出的扩展区域映射(extended region mapping)的方法则使精度有较大的提高（1.2个AP）。

5.2. Comparison with State-of-the-art Methods

作者又在主流的目标检测数据库上与state-of-the-art进行了比较。

下图展示了在Pascal VOC数据集上，相比R-FCN、FPN，使用相同骨干网的情况下，精度取得了极大的提升！
在这里插入图片描述

在COCO minival数据集上的实验，同样取得了较大幅度精度提升。
在这里插入图片描述

在COCO test-dev数据集上也实现了一骑绝尘！如下图：
在这里插入图片描述

5.3. Analysis and Discussion

与Faster R-CNN相比，发现精度提升主要来自高IoU阈值的部分，如下图所示。

所以作者猜测，Grid定位分支也许轻微影响了分类的分支。
在这里插入图片描述
下图是一些目标的定位示例（请点击大图查看）：

作者最后列出了Grid R-CNN对各目标类别的精度增益，发现那些矩形和长方形目标（例如键盘，笔记本电脑，叉子，火车和冰箱）往往获得更大的精度增益，而具有圆形性质的物体（例如运动球，飞盘，碗，钟和杯子）则性能下降或获得较小的增益。
在这里插入图片描述