RCNN学习笔记

论文题目:Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)
论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
代码链接:http://www.cs.berkeley.edu/˜rbg/rcnn.
相关笔记:目标检测学习笔记

一、RCNN的特点与性能

1.RCNN是双阶段的目标检测网络。
2.RCNN有预训练过程。
3.RCNN在VOC2012数据集上mAP达到了53.3%.

二、RCNN的创新点

1.RCNN在region proposals自下而上使用高性能的CNN提取特征。
2.在带标注的数据集不充足时,先针对辅助任务进行有监督的预训练,再进行特定任务的优化训练,可以提升模型性能。

三、传统目标检测思路

在这里插入图片描述

图1 传统目标检测整体思路

 传统的目标检测是先进行区域推荐,然后在推荐的区域上特征提取,提取完特征后分类,最后去除多余的边界框。
1.区域推荐的常用方法:滑动窗口,穷举法。
2.常用特征提取:SIFT和HOG。
3.分类方法:SVM。
4.去掉冗余的方法:NMS.

四、RCNN的整体思路

在这里插入图片描述

图2 传统目标检测与RCNN的整体思路

 从图2可以看出,RCNN的整体思路与传统目标检测的整体思路一致。
(1)区域推荐(region proposal)即候选区域:RCNN中用selective search实现区域推荐。给定一张图片,通过选择性搜索算法产生2000个候选边框,候选框的形状和大小是不相同的,这些框之间是可以互相重叠互相包含的;
(2)特征提取:用CNN对每一个候选框提取深层特征;
(3)分类:用SVM对卷积神经网络提取的深层特征进行分类;
(4)去除冗余框:对每一类目标用NMS去除冗余框,挑选出SVM得分较高的边框;
(5)使用回归器精细修正候选框位置。
在这里插入图片描述

图3 RCNN系统

五、RCNN中的CNN

在这里插入图片描述

图 4RCNN中的CNN结构

 R-CNN算法采用的是8层卷积神经网络对图像进行特征提取,其中前5层是卷积层,其中第一层、第二层、第五层之后跟有最大池化层,后3层是全连接层。在图像输入网络前需要把图像归一化为227*227的固定大小。即输入层为候选区域缩放得到,输出为该候选区域边框的分类结果。

六、RCNN训练步骤

1.下载或训练预训练模型。
2.对预训练模型迁移。
3.提取候选区域。
4.将候选区域resize成227*227.
5.训练CNN。
6.训练SVM.
7.使用回归器精细修正候选框位置:对于每一个类,训练一个线性回归模型去判定这个框是否框的完美。

七、RCNN的缺点

1.操作步骤繁琐:整个训练过程分为多个步骤,步骤繁琐不易操作。
2.不易取得最优解:每个阶段单独训练,容易取得每个阶段的最优解,但不易取得整体最优解。
3.时间开销大:(1)每张图片的每个region proposal都要做卷积;(2)在训练SVM和回归的时候需要用网络训练的特征作为输入,特征保存在磁盘上再读入的时间开销较大。
4…空间开销大:在训练SVM和回归的时候需要用网络训练的特征作为输入,特征需要保存在磁盘上。
5.CNN输入的图像有畸变:每个region proposals 大小不一,但CNN的输入尺寸是227*227,因此,在图像的region proposal输入CNN前需要resize,图像会发生畸变。

参考

[1]第二十九节,目标检测算法之R-CNN算法详解
[2]目标检测算法R-CNN简介
[3]R-CNN论文详解(论文翻译)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值