R-cnn论文总结

R-cnn论文总结

论文题目:
Rich feature hierarchies for accurate object detection and semantic segmentation

第一个成功将深度学习应用到目标检测上的算法

论文框架:

Abstract

1.效果:
将mAP在VOC2012最好结果的基础上提高30%以上——达到了53.3%。

2.解决的问题:
在PASCAL数据集上,物体检测的效果已经达到一个稳定水平。没有突破。

3.创新点:
A.在候选区域上自下而上使用大型卷积神经网络(CNNs),用以定位和分割物体。
(因为把region proposal和CNNs结合起来,被称为R-CNN:Regions with CNN features)
B.当带标签的训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定任务的调优,就可以产生明显的性能提升。

1.Introduction

1.考虑到目标检测需要考虑定位问题,作者考虑到两种方法:
一个方法是将帧定位视作一个回归问题。另一个方法是使用滑动窗口的方法,作者考虑过用这种方法,但是考虑到之前为了保证可以得到更高的分辨率,现在如果用在比较深层次的网络中,就不适用了。和滑动窗口相对的方法就是基于区域的方法.
本文采用的就是selective search,用Deep Learning做物体识别的一个思路,生成一系列候选区域,并通过与目标区域的重叠比例给出一个值。这篇文章贡献的第二个原则是表明在一个大的数据集(ILSVRC)进行有监督的预训练,然后再在一个小的数据集(PASCAL)上进行特定场合的 fine-tunring。

2.Object detection with R-CNN

整个系统分为三个部分:
1.产生不依赖与特定类别的region proposals,这些region proposals定义了一个整个检测器可以获得的候选目标
2.一个大的卷积神经网络,对每个region产生一个固定长度的特征向量
3.一系列特定类别的线性SVM分类器。

2.1 Module design(模块设计)
区域提议:selective search
特征提取:我们使用Caffe从每个区域提案中提取4096维特征向量。将该区域的图像数据转换成与CNN兼容固定的227×227像素尺寸

2.2 test-time detection(测试时间)
使用selective search算法提取2000个左右的区域建议。计算特征我们使用变形每个区域建议并使用CNN向前传播。

2.3 Training(训练)
有监督的预训练;特定领域的fine-tuning ;特定类别的分类器(每个类都训练一个线性的SVM分类器)

2.4Results on PASCAL VOC 2010-12
实现了mAP中的大幅改进,从mAP的35.1%提高到53.7%,同时速度要快得多

3.Visualization, ablation, and modes of error

3.1Visualizing learned features(可视化学习到的特征)
因为可视化第一层非常简单,比较难的是理解后面的层,提出了一种反卷积办法,直接展示网络学到的东西。这个想法是单一输出网络中一个特定单元(特征),然后把它当做一个正确类别的物体检测器来使用

3.2Ablation studies(消融研究)
ablation study 就是为了研究模型中所提出的一些结构是否有效而设计的实验。如你提出了某某结构,但是要想确定这个结构是否有利于最终的效果,那就要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比,这就是ablation study。也就是(控制变量法)

3.3Detection error analysis(检测错误分析)
可以去原文中看一下这个方法。

3.4Bounding box regression(边界框回归)
为了减少定位误差,通过一系列变换(坐标的平移和边界框长宽的缩放)使得proposal 更加接近ground truth。

4.Semantic segmentation
R-CNN(基于区域的语义分割)提取了每个区域的两种特征:全区域特征和前景特征,发现将它们作为区域特征连接在一起可以获得更好的性能。R-CNN由于使用了高度歧视性的CNN功能,取得了显著的性能改进。(它也面临着分割任务的一些缺点:1.此功能与分段任务不兼容。2.该特征包含的空间信息不足,无法精确生成边界。3.生成基于分段的建议需要时间,并且会极大地影响最终性能。)
5.Conclusion

一种简单并且可扩展的物体检测方法,在VOC 2012数据集上性能有了30%的提高。
1.应用了自底向上的候选框训练的高容量的卷积神经网络进行定位和分割物体。
2.使用在标签数据匮乏的情况下训练大规模神经网络的一个方法。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值