目标检测论文精读（２）－ R-CNN

最新推荐文章于 2023-08-14 13:39:57 发布

lxbzty

最新推荐文章于 2023-08-14 13:39:57 发布

阅读量920

点赞数 1

分类专栏：目标检测论文精读文章标签： rcnn 目标检测目标检测论文 object detection Ｒ-CNN

本文链接：https://blog.csdn.net/zhli99/article/details/89076477

版权

目标检测论文精读专栏收录该内容

7 篇文章 2 订阅

订阅专栏

R-CNN阅读重点

Introduction
Innovation
Results

R-CNN原论文地址 https://arxiv.org/pdf/1311.2524.pdf

Introduction

在这里插入图片描述
R-CNN在自下而上的候选区域上应用大型卷积神经网络，以此来定位和分割目标。当标记的训练数据稀缺时，R-CNN先对一个辅助任务进行有监督的预训练，再进行域特定微调，并作非极大值抑制处理，论文里在ISLVRC2012上监督预训练，再在Pascal VOC上微调，这么做使性能有比较好的提升。

R-CNN Detection System

在这里插入图片描述
rcnn的检测流程如上图所示，（１）先输入一张图片，（２）通过选择性搜索（将图片划分成多个子区域，然后通过颜色，纹理等进行合并迭代。）方法选取约2000个候选区域，然后将每个候选区域都缩放到２２７＊２２７的维度，（３）再输入到卷积神经网络中，得到一个固定长度的特征向量（4096维），（４）之后在将得到的2000个4096维特征向量输入到特定类的线性支持向量机（有21个，Pascal VOC有20个类别＋背景）进行打分，并作非极大值抑制处理。

Network

在这里插入图片描述
R-CNN的网络结构沿用AlexNet的结构，但在微调之后去掉了最后一个全连接层。

Module design

在这里插入图片描述
R-CNN模块设计包括候选区域生成、特征提取、特定类的线性支持向量机。

Bounding-box regression

在这里插入图片描述
在经过误差分析之后，为了减少定位错误，训练了一个边界框回归器，提取pool5的特征预测一个新的边界框。

回归器训练的输入：一组(P, Q)训练对，Ｐ是指候选区域的框，Ｑ是指真实框，Ｑ-hat是指新预测的边界框。
回归器的学习目标是P映射到Q的转换，用ｄ_*将转换参数化，ｄ_*是指从Ｐ映射到Ｑ-hat的转换。
回归器的损失函数如图右上所示，计算的是t_*和d_*差的平方，t_*其中t_*是指从Ｐ映射到Ｑ的转换。

Different object proposal transformations

在这里插入图片描述
关于缩放，论文中提了几种方法，首先是论文中使用的暴力缩放（Ｄ），先给图片（Ａ）填充一些padding，然后直接缩放到２２７＊２２７，使得没加padding缩放的边界到加padding缩放的边界是16个像素点，这种方法是各向异性缩放。还有各向相向缩放，先将图片填充成正方形再缩放到２２７＊２２７，这又分为用图片信息填充（Ｂ）和用灰度填充（Ｃ）。

Visualizing learned features

在这里插入图片描述
论文中提出了一种将学到的特征可视化的方法，pool5的维度是６＊６＊２５６，在输入的２２７＊２２７的候选区域上对应256个１９５＊１９５的感受野。
特征可视化步骤：
（１）在pool5中取一个特定的６＊６单元，
（２）计算每个候选区域到这个单元的激活值，
（３）按激活值从大到小的顺序排序，并作非极大值抑制处理。
如上图所示的示例结果，论文作者也由此得出了前５层卷基层提取的是基础特征，后２层全连接层提取的是一些特定的特征。

Innovation

在这里插入图片描述
首先，cnn参数在所有类别中共享。
其次，cnn计算的特征向量是低维的，比之前的算法低２个数量级。

Results

Test on VOC2007

在这里插入图片描述
前３行是微调之前的结果，之后的４行是微调之后的结果，微调之前全连接层的存在并不是很必要，微调之后全连接层的必要性就显露出来了。

Test on VOC2010

在这里插入图片描述
加了边界框回归后，精度提升了３、４个百分点。

Test on ILSVRC2013

在这里插入图片描述
R-CNN的检测精度在当时处于领先的位置。

Error analysis

在这里插入图片描述
Loc：定位错误
Sim：相似类别混淆
Oth：不相似类别混淆
BG：背景误检
第一行是对animals的错误分析，第二行是对furniture的错误分析。微调之后不相似类别混淆和背景误检率明显降低，加了边界框之后定位错误则大幅减少，但是相似类别混淆也有所增加。