【目标检测】R-CNN笔记

最新推荐文章于 2024-04-21 15:46:09 发布

橘子吃的停不下

最新推荐文章于 2024-04-21 15:46:09 发布

阅读量636

点赞数

本文链接：https://blog.csdn.net/zkddt/article/details/100709087

版权

参考博客：
https://blog.csdn.net/briblue/article/details/82012575 作者：frank909

https://blog.csdn.net/u010977034/article/details/82854016 作者：JerrySing

https://blog.csdn.net/WoPawn/article/details/52133338 作者： WoPawn

1、背景摘要

R-CNN经典论文的题目是《Rich feature hierarchies for accurate oject detection and semantic segmentation》，翻译过来就是针对高准确度的目标检测与语义分割的多特征层级，通俗地来讲就是一个用来做目标检测和语义分割的神经网络。

这篇论文的作者是Ross Girshick，JeffDonahue,TrevorDarrell,Jitendra Malik，它是在2014 年发布的。在 Pascal VOC 2012 的数据集上，能够将目标检测的验证指标 mAP 提升到 53.3%,这相对于之前最好的结果提升了整整 30%。R-CNN也是后续fast-RCNN,faster-RCNN的发展的重要基石，并具有重要推动意义。

本篇论文的创新的点：

1.1在候选区域上自下而上使用大型卷积神经网络(CNNs)，这样就可以进行目标分类和目标定位。
1.2当带标签的训练数据不足时，采用在其他大型数据集训练过后的神经网络，然后在小规模特定的数据集中进行 fine-tune 微调。

2、介绍

2.1什么是目标检测？

给定一张图片可以识别出类别就是，对象识别。
在这里插入图片描述比如，上面的图像就需要预测物体类别为 cat。

而目标检测除了要识别类别外，还要找到他们的位置。
在这里插入图片描述显然，目标检测比对象识别更难。

在过去的十多年时间里，传统的机器视觉领域，通常采用特征描述子来应对目标识别任务，这些特征描述子最常见的就是 SIFT 和 HOG.而 OpenCV 有现成的 API 可供大家实现相关的操作。SIFT 和 HOG 的王者地位最近被卷积神经网络撼动。

2.2 CNN

2012 年 Krizhevsky 等人在 ImageNet 举办的 ILSVRC 目标识别挑战大赛中一战成名，豪夺当年的第一名，Top5 错误率 15%,而他们团队提出来的网络结构以他们的导师名字命名，它就是 AlexNet。

在这里插入图片描述

它有 5 层卷积层,2 层全连接层。

因为 AlexNet 的出现，世人的目光重回神经网络领域，以此为契机，不断涌出各种各样的网络比如 VGG、GoogleNet、ResNet 等等。

受 AlexNet 启发，论文作者尝试将 AlexNet 在 ImageNet 目标识别的能力泛化到 PASCAL VOC 目标检测上面来。

但一切开始之前，需要解决两个主要的问题。

1、如何利用深度的神经网络去做目标的定位？
2、如何在一个小规模的数据集上训练能力强劲的网络模型？

论文作者给出了思路。

3、用R-CNN进行目标检测

借鉴了滑动窗口思想，R-CNN 采用对区域进行识别的方案。

具体是：

 1、给定一张输入图片，从图片中提取 2000 个类别独立的候选区域。
 2、对于每个区域利用 CNN 抽取一个固定长度的特征向量。
 3、再对每个区域利用 SVM 进行目标分类。

论文中给出的流程图
3.1 利用预训练与微调解决标注数据缺乏的问题

采用在 ImageNet 上已经训练好的模型，然后在 PASCAL VOC 数据集上进行 fine-tune。

因为 ImageNet 的图像高达几百万张，利用卷积神经网络充分学习浅层的特征，然后在小规模数据集做规模化训练，从而可以达到好的效果。

现在，我们称之为迁移学习，是必不可少的一种技能。

3.2 R-CNN 的目标识别

前面内容提到过，R-CNN 系统分为 3 个阶段，反应到架构上由 3 个模块完成。

1、生产类别独立的候选区域，这些候选区域其中包含了 R-CNN 最终定位的结果。
2、神经网络去针对每个候选区域提取固定长度的特征向量。
3、一系列的 SVM 分类器。

3.3 候选区域

能够生成候选区域的方法很多，比如：

objectness
selective search
category-independen object proposals
constrained parametric min-cuts(CPMC)
multi-scale combinatorial grouping
Ciresan

R-CNN 采用的是 Selective Search 算法。

3.4 特征抽取

本文采用AlexNet CNN网络进行CNN特征提取，R-CNN 抽取了一个 4096 维的特征向量。为了适应AlexNet网络的输入图像大小：227×227，故将所有建议框变形为227×227。

那么问题来了，如何进行变形操作呢？作者在补充材料中给出了四种变形方式：

① 考虑context【图像中context指RoI周边像素】的各向同性变形，建议框像周围像素扩充到227×227，若遇到图像边界则用建议框像素均值填充，下图第二列；
② 不考虑context的各向同性变形，直接用建议框像素均值填充至227×227，下图第三列；
③ 各向异性变形，简单粗暴对图像就行缩放至227×227，下图第四列；
④ 变形前先进行边界像素填充【padding】处理，即向外扩展建议框边界，以上三种方法中分别采用padding=0下图第一行，padding=16下图第二行进行处理；

经过作者一系列实验表明采用padding=16的各向异性变形即下图第二行第三列效果最好，能使mAP提升3-5%。
在这里插入图片描述

3.5 测试阶段的目标检测

在测试阶段，R-CNN 在每张图片上抽取近 2000 个候选区域。

然后将每个候选区域进行尺寸的修整变换，送进神经网络以读取特征，然后用 SVM 进行类别的识别，并产生分数。

候选区域有 2000 个，所以很多会进行重叠。

针对每个类，通过计算 IoU 指标，采取非极大性抑制，以最高分的区域为基础，剔除掉那些重叠位置的区域。

3.6 运行时分析

两个因素可以让目标识别变得高效。

1、CNN 的参数是所有类别共享的。
2、R-CNN 生成的特征向量维度较少。论文拿应用在 UVA 采用的空间金字塔技术相比，它们生成的特征维度是 360k，而 R-cnn 就 4K 多。

也就是运行过程中，参数变少了，所以比传统的高效。

体现在提取特征的时间，如果用 GPU ，13s/张，CPU 53s/张。

R-cnn 能够处理 100k 种类别，在一个多核的 CPU 上只要花费 10 多秒。

与 UVA 相比，如果处理 100k 个预测，需要 134GB 内存空间，而 R-CNN 只要 1.5GB。

3.7 训练

前面已经提到过 R-CNN 采取迁移学习。

提取在 ILSVRC 2012 的模型和权重，然后在 VOC 上进行 fine-tune。

需要注意的是，这里在 ImageNet 上训练的是模型识别物体类型的能力，而不是预测 bbox 位置的能力。

ImageNet 的训练当中需要预测 1000 个类别，而 R-CNN 在 VOC 上进行迁移学习时，神经网络只需要识别 21 个类别。这是 VOC 规定的 20 个类别加上背景这个类别。

R-CNN 将候选区域与 GroundTrue 中的 box 标签相比较，如果 IoU > 0.5，说明两个对象重叠的位置比较多，于是就可以认为这个候选区域是 Positive,否则就是 Negetive.

训练策略是：采用 SGD 训练，初始学习率为 0.001，mini-batch 大小为 128.

3.8 对象识别相关

通常对待一个二值化的分类器，它的结果只有两种，Positive 和 Negetive。

比如，有一个汽车分类器，它可以轻松地确认，一个方框里面包含了一辆汽车，那么它肯定就是 Positive。

也可以很清楚地确认，如果一个背景方框中没有包含汽车，那么它就是 Negetive。

但是，比较难确认的是，如果一个方框，只有一部分与汽车重叠，那么如何标注这个方框呢？

R-CNN 采用的是 IoU 的阈值，这个 threshold 取 0.3，如果一个区域与 Ground truth 的 IoU 值低于设定的阈值，那么可以讲它看成是 Negetive.

IoU 的 threshold (阈)它不是作者胡乱取值的，而是来自 {0,0.1,0.2,0.3,0.4,0.5} 的数值组合的。

而且，这个数值至关重要，如果 threshold 取值为 0.5,mAP 指标直接下降 5 个点，如果取值为 0，mAP 下降 4 个点。

一旦特征抽取成功，R-CNN 会用 SVM 去识别每个区域的类别，但这需要优化。

因为训练的数据太大，不可能一下子填充到电脑内存当中，R-CNN 作者采取了一种叫做 Hard negetive mining 的手段。

3.9 R-CNN 的在 PASCAL-VOC 2010-12 的表现

R-CNN 是在 PASCAL VOC 2012 进行最终的 fine-tune,也是在 VOC 2012 的训练集上优化 SVM.

然后，还与当时 4 个强劲的对手，也就是 4 个不同的目标检测算法进行了比较。

在这里插入图片描述

值得关注的是，上面表格中 UVA 检测系统也采取了相同的候选区域算法，但 R-CNN 的表现要好于它。

4、可视化、消融、模型的错误

4.1 可视化

我们都知道，在卷积神经网络中，第一层可以直接用来显示，而且肉眼可视，通常他们是为了捕捉物体边缘，及突出的颜色信息，但越往后的卷积层越抽象，这个时候进行可视化就是一个挑战了。

Zeiler 和 Fergus 提出了一种基于反卷积手段的可视化研究，但 R-CNN 的作者直接提供了一个没有参数的方法，简单直接。

思路是挑选一个特征出来，把它直接当成一个物体分类器，然后计算它们处理不同的候选区域时，activation 的值，这个值代表了特征对这块区域的响应情况，然后将 activation 作为分数排名，取前几位，然后显示这些候选区域，自然也可以清楚明白，这个 feature 大概是什么。

R-CNN 作者将 pool5 作为可视化对象，它的 feature map 是 6x6x255 的规格，可以理解为有 256 个小方块，每个方块对应一个特征。

下面的图表中显示了这以可视化的效果，这里只显示了 256 个特征中的 6 个，每个特征取 activation 值最高的 16 个区域。

在这里插入图片描述

上图应该很明白了，对于同一类特征，activation 相差不大，这也是卷积神经网络能够准确识别物体的直观体现。

4.2 框架精简

AlexNet 有 7 层，那么那些层是关键指标呢？哪些层可有可无呢？

在这里插入图片描述

pool5 在上一小节已经讨论过了，那么 fc6 和 f7 就成了研究的对象。

fc6 与 pool5 构成全连接，为了计算 feature 它会乘以一个 4096x9216 的权重矩阵，然后在与一组 bias 相加，所以它有 3700 多万的参数。

fc7 是最后一层，它的权重矩阵是 4096x409,它的参数有 1678 万多的参数。

但经过作者在 PASCAL 上不做 fine-tune 处理，直接测试，可以发现 fc7 的意义没有 fc6 大，甚至移除它之后，对于 mAP 结果指标没有影响。

移除 fc7 就表示可以减少将近 1800 万个参数。

更惊喜的事情是，同时移除 fc6 和 fc7 并没有多大的损失，甚至结果还要好一点点。

所以，神经网络最神奇的力量来自卷积层，而不是全连接层。

上面说的是没有 fine-tune 的情况，那么在 fine-tune 的情况是什么呢?

结果证明，fine-tune 后 fc6 与 fc7 提升的效果明显。

所以结论就是，pool5 从 ImageNet 训练集中学习了物体的泛化能力，而能力的提升则是通过特定领域的 fine-tune。

举个例子，神经网络在 ImageNet 数据集中学习到了 100 种猫的特征，而我自己的数据集只有两种猫，经过 fine-tune 训练后，这个神经网络可以更准确识别这两种猫了。

R-CNN 还与其他的特征方法进行了能力比较，作者选取了两种基于 DPM 的方法，DPM ST 和 DPM HSC,结果都证明，R-CNN 要好于它们。

4.3 目标检测错误分析

R-CNN 作者采用了 Hoiem 提出的目标检测分析工具，能够直观地揭露错误的模型，作者通过这个工具针对性地进行 fine-tune。

4.4 bbox 回归

bbox 的值其实就是物体方框的位置，预测它就是回归问题，而不是分类问题。

为了将Bounding Box尽可能的往Ground Truth上面靠。
在这里插入图片描述

5、语义分割

什么是语义分割？

在这里插入图片描述

区域分类技术是语义分割的标准做法，所以 R-CNN 也可以做语义分割，并且作者拿它跟 O2P 来比较。

R-CNN 进行语义分割分为 3 个阶段。

1、利用 CPMC 生成候选区域，然后将这些区域调整大小为 227x227,送到神经网络当中，这是 full 阶段，区域中有背景也有前景。
2、这个阶段只处理候选区域的前景，将背景用输入的平均值代替，然后背景就变成了 0 ，这个阶段称为 fg。
3、full + fg 阶段，将背景和前景简单拼接。

6、回顾总结

R-CNN 采用 AlexNet
R-CNN 采用 Selective Search 技术生成 Region Proposal.
R-CNN 在 ImageNet 上先进行预训练，然后利用成熟的权重参数在 PASCAL VOC 数据集上进行 fine-tune
R-CNN 用 CNN 抽取特征，然后用一系列的的 SVM 做类别预测。
R-CNN 的 bbox 位置回归基于 DPM 的灵感，自己训练了一个线性回归模型。
R-CNN 的语义分割采用 CPMC 生成 Region

R-CNN 灵活地运用了现有比较先进的工具和技术，并充分吸收，根据自己的逻辑改造，最终取得了很大的进步。

到 2018 年，R-CNN 已经不是最先进的目标检测模型，也不是最先进的语义分割模型，但这篇论文最大意义在于展示了作者在资源匮乏的情况下如何整合现有的先进技术去解决自己问题的手段。

七、存在的问题

1、很明显，最大的缺点是对一张图片的处理速度慢，这是由于一张图片中由selective search算法得出的约2k个建议框都需要经过变形处理后由CNN前向网络计算一次特征，这其中涵盖了对一张图片中多个重复区域的重复计算，很累赘；

2、知乎上有人说R-CNN网络需要两次CNN前向计算，第一次得到建议框特征给SVM分类识别，第二次对非极大值抑制后的建议框再次进行CNN前向计算获得Pool5特征，以便对建议框进行回归得到更精确的bounding-box，这里文中并没有说是怎么做的，博主认为也可能在计算2k个建议框的CNN特征时，在硬盘上保留了2k个建议框的Pool5特征，虽然这样做只需要一次CNN前向网络运算，但是耗费大量磁盘空间；

3、训练时间长，虽然文中没有明确指出具体训练时间，但由于采用RoI-centric sampling【从所有图片的所有建议框中均匀取样】进行训练，那么每次都需要计算不同图片中不同建议框CNN特征，无法共享同一张图的CNN特征，训练速度很慢；

4、整个测试过程很复杂，要先提取建议框，之后提取每个建议框CNN特征，再用SVM分类，做非极大值抑制，最后做bounding-box回归才能得到图片中物体的种类以及位置信息；同样训练过程也很复杂，ILSVRC 2012上预训练CNN，PASCAL VOC 2007上微调CNN，做20类SVM分类器的训练和20类bounding-box回归器的训练；这些不连续过程必然涉及到特征存储、浪费磁盘空间等问题。