RCNN学习笔记

最新推荐文章于 2021-04-17 16:26:33 发布

Ybossceo

最新推荐文章于 2021-04-17 16:26:33 发布

阅读量305

点赞数

分类专栏：目标检测深度学习

本文链接：https://blog.csdn.net/weixin_43951995/article/details/104223168

版权

深度学习同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

目标检测

6 篇文章 0 订阅

订阅专栏

RCNN学习笔记

一、RCNN的特点与性能
二、RCNN的创新点
三、传统目标检测思路
四、RCNN的整体思路
五、RCNN中的CNN
六、RCNN训练步骤
七、RCNN的缺点
参考

论文题目：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
论文链接：https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
代码链接：http://www.cs.berkeley.edu/˜rbg/rcnn.
相关笔记：目标检测学习笔记

一、RCNN的特点与性能

1.RCNN是双阶段的目标检测网络。
2.RCNN有预训练过程。
3.RCNN在VOC2012数据集上mAP达到了53.3%.

二、RCNN的创新点

1.RCNN在region proposals自下而上使用高性能的CNN提取特征。
2.在带标注的数据集不充足时，先针对辅助任务进行有监督的预训练，再进行特定任务的优化训练，可以提升模型性能。

三、传统目标检测思路

在这里插入图片描述

图1 传统目标检测整体思路

传统的目标检测是先进行区域推荐，然后在推荐的区域上特征提取，提取完特征后分类，最后去除多余的边界框。
1.区域推荐的常用方法：滑动窗口，穷举法。
2.常用特征提取：SIFT和HOG。
3.分类方法：SVM。
4.去掉冗余的方法：NMS.

四、RCNN的整体思路

在这里插入图片描述

图2 传统目标检测与RCNN的整体思路

从图2可以看出，RCNN的整体思路与传统目标检测的整体思路一致。
（1）区域推荐(region proposal)即候选区域：RCNN中用selective search实现区域推荐。给定一张图片，通过选择性搜索算法产生2000个候选边框，候选框的形状和大小是不相同的，这些框之间是可以互相重叠互相包含的；
（2）特征提取：用CNN对每一个候选框提取深层特征；
（3）分类：用SVM对卷积神经网络提取的深层特征进行分类；
（4）去除冗余框：对每一类目标用NMS去除冗余框，挑选出SVM得分较高的边框；
（5）使用回归器精细修正候选框位置。
在这里插入图片描述

图3 RCNN系统

五、RCNN中的CNN

在这里插入图片描述

图 4RCNN中的CNN结构

R-CNN算法采用的是8层卷积神经网络对图像进行特征提取，其中前5层是卷积层，其中第一层、第二层、第五层之后跟有最大池化层，后3层是全连接层。在图像输入网络前需要把图像归一化为227*227的固定大小。即输入层为候选区域缩放得到，输出为该候选区域边框的分类结果。

六、RCNN训练步骤

1.下载或训练预训练模型。
2.对预训练模型迁移。
3.提取候选区域。
4.将候选区域resize成227*227.
5.训练CNN。
6.训练SVM.
7.使用回归器精细修正候选框位置：对于每一个类，训练一个线性回归模型去判定这个框是否框的完美。

七、RCNN的缺点

1.操作步骤繁琐：整个训练过程分为多个步骤，步骤繁琐不易操作。
2.不易取得最优解：每个阶段单独训练，容易取得每个阶段的最优解，但不易取得整体最优解。
3.时间开销大：（1）每张图片的每个region proposal都要做卷积；（2）在训练SVM和回归的时候需要用网络训练的特征作为输入，特征保存在磁盘上再读入的时间开销较大。
4…空间开销大：在训练SVM和回归的时候需要用网络训练的特征作为输入，特征需要保存在磁盘上。
5.CNN输入的图像有畸变：每个region proposals 大小不一，但CNN的输入尺寸是227*227，因此，在图像的region proposal输入CNN前需要resize,图像会发生畸变。