目标检测论文中的ROI | 各种方法横向学习

最新推荐文章于 2024-05-08 14:25:27 发布

我去喝咖啡了

最新推荐文章于 2024-05-08 14:25:27 发布

阅读量2.7k

点赞数

分类专栏：目标检测文章标签：目标检测学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45581089/article/details/125617672

版权

目标检测专栏收录该内容

2 篇文章 1 订阅

订阅专栏

包含的论文一览

【Fast R-CNN】 RoI pooling（未施工）
【Faster RCNN】Region Proposal Network
【Mask RCNN】 ROI Align

Faster R-CNN

Faster RCNN的最大亮点就是提出了网络RPN（大名Region Proposal Network） ，在检测中的作用等价于之前论文（如Fast R-CNN， R-CNN)用来提取候选区域的Selective Search方法

RPN的示意图

RPN是一个相对于backbone较小的网络（small network）作用于最后一层卷积网络输出的特征图：

截自于Faster R-CNN 原文

生成regions

RPN被形象的图解为 $n \times n$ 大小的滑动窗口，中心定位于特征图上的每个像素，而这个滑动窗口实际上由 $k$ 个anchor boxes组成，也就是说围绕在中心点的滑动窗口是有 $k$ 中变换形状的，不仅有 $n \times n$ 的正方形的样子，还有不同尺度，不同面积的另外 $k - 1$ 个。
（文章中以 $k = 9$ ，有三种面积大小的anchor boxes，同一面积大小的anchor boxes又有三种不同的长宽比。）

标选可用的regions

给region添加信息：位置坐标和类别标签

用两个前向网络实现：

$1 \times 1$ 卷积核将特征图通道数变为 $2 \times k$ ，2是有无目标的意思（这里不进行判断具体生成什么类别）
$1 \times 1$ 卷积核将特征图通道数变为 $4 \times k$ ，对每个锚检测的区域中所含目标的位置信息进行预测

这样就对每个像素位置所包含的区域信息进行了一个处理，要注意的是：如今的每个像素是属于对原图像下采样后的特征图的，是存留着局部信息的。

Proposal layer

回顾上阶段：经过上一步逐像素生成9个regions。

我们现在有： $M \times N \times K$ 个regions（ $M \times N$ 为RPN作用的特征图的尺寸），总数量是巨大的

而我们再回到任务本身：目标只在图像中的某个或某几个区域

那么显然我们要筛去没有包含很多目标信息的regions，如何用网络来表示包含信息的情况？——最后用一个proposal layer来衔接提出regions和送入检测器检测这两个过程

首先对含有目标的regions（也就是类别标签属于positive的）的分数进行排序，在网络实现过程中，分类输出的是softmax的结果
提取前N个最大的
再将超出边界的region限定边界为图像的边界，剔除尺寸非常小的，NMS处理

RPN训练

首先RPN的训练需要制作标签。

对于常用的数据集如VOC是有真值框的，那么我们判断anchors所圈住区域是否为真，还是用老方法IoU来度量。

从这一步我们也能明白一点，其实锚所选定的区域，应该是对原图像的一个操作

Mask RCNN

先引入Faster R-CNN

回顾Faster R-CNN对每一个候选目标都有两个输出：类别标签（class label）和一个边界框偏移量（bounding-box offset）。在此基础上，Mask R-CNN添加第三个输出分支：输出the object mask

有两种接入形式，分别对应两种backbone

用ResNet作为backbone，RPN（源自Faster R-CNN中）输出ROI经过ROI pooling后，得到 $7 \times 7 \times 1024$ 的特征，再进行一次反卷积，得到 $7 \times 7 \times 2048$ 的特征，与三个头相接（即做分类，回归和mask分支）
用FPN作为backbone，在mask分支直接输入RoI

mask的概念

对输入目标的空间布局进行编码，可以通过点对点的卷积实现

为什么使用mask

在Faster R-CNN结构中，最终输出的class labels和box offsets都是由全连接层输出的向量，而为了得到短的输出向量，信息一定存在collapsed

mask则是对于空间结构的一个检测，保留了空间信息

ROI的对齐问题

在Faster R-CNN中，对于RoI特征的提取，有两处存在着误差。

下采样过程导致的对不准

在backbone中会有对原图进行下采样，下采样的倍数取决于max pooling，当ground truth boxes不能被下采样倍数所整除时，出现了第一次对不准的情况

RoIpooling的信息不准问题

在Fast R-CNN中，提出了RoIPool这个方法，用于提取RoI的在特征图上的特征(7×7），操作过程为：找到RoI在特征图上的对应位置，并将其池化成统一7×7大小。这就衍生出一个问题：在划分每一个bin时，产生坐标位置的量化，这样就会导致提取到的特征和RoI之间的不准，虽然对分类可能没有太大的影响，但会很大影响到基于像素的mask的预测

为了保持像素在空间上的正确对应，文中提出了RoI的改进方法RoIAlign