经典检测网络文献阅读笔记——RCNN

丰富的特征层次精确的对象检测和语义分割

摘要

目标检测性能最好的办法是复杂的集成系统,通常将多个低级图像特征与高级上下文相结合。
衡量标准:相对于之前VOC 2012的最佳结果,平均精度(mAP)提高了30%以上,实现了53.3%的mAP。
本文贡献:
1.可以将高容量卷积神经网络应用于自底向上的区域方案,以定位和分割目标。
2.当标记训练数据缺少时,对辅助任务进行监督前训练,然后进行特定领域的微调,可以显著提高性能。
R-CNN:具有CNN特征的区域
比较R-CNN和OverFeat->由于*因此证明其性能好


介绍

使用区域识别的方法来解决CNN定位问题。我们方法:(1)输入图像
(2)生成大约2000个类别独立的区域建议
(3)使用CNN从每个建议计算特征
(4)使用类特定的线性支持向量机(SVM)对每个区域进行分类。

标签数据稀缺问题
在大型辅助数据集(ILSVRC)上进行监督前训练,然后在小数据集上进行领域特定微调(PASCAL)

CNN可以用作黑箱特征提取器(无需微调),包括场景分类细粒度子分类领域自适应->识别任务

理解方法的失效模式对于改进它是至关重要的
——我们证明了一个简单的边界框回归方法显著减少了错误定位,这是主要的错误的方式。


R-CNN目标检测

1.三个模块组成:
(1)独立于类别的区域建议:检测器可用的候选检测器
(2)一个大型的CNN:从每个区域提取固定长度的特征向量。
(3)一组特定于类的线性支持向量机
区域建议:使用选择性搜索来与之前的检测工作进行控制比较。
特征提取:使用CNN从每个区域提议中提取一个4096维的特征向量。
(特征的计算方法是将平均减去的227
227RGB图像通过5个卷积和两个完全连接层向前传播)

2.测试时间检测
选择性搜索->提取出大约2000个区域建议->wrap提议并通过CNN向前传播->使用SVM对每个提取的特征向量进行评分->采用贪心NMS

运行时间对比:
2个特性:
1.所有CNN参数在所有类别中共享。
2.如使用视觉字袋编码(spatial pyramids with bag-of-visual-word encodings)的空间金字塔,由CNN计算的特征向量是低维的。
计算区域提议和特征(GPU:13s/每张图;CPU:53s/每张图);唯一需要特定计算的是SVM的权重之间的点积和非最大抑制->R-CNN可以扩展到数千对象类->在多核CPU上处理,最终矩阵乘法仅需10秒

3.训练
监督预训练:使用 image-level annotations
特定领域的微调:
使CNN适应新的任务(检测)和新的域(warped的建议窗口),我们使用扭曲区域建议对CNN进行梯度下降
正向窗口采样
对象的类别分类器:

为什么积极和消极的例子定义不同的微调CNN与训练目标检测支持向量机?

4.在数据集PASCAL VOC 2010-12结果
实验:与baseline:SegDPM,UVA,Regionlets,DPMv5

5.在ILSVRC2013 detection验证结果


可视化、消融和误差模式

1.可视化学习特征
我们提出了一个简单(和互补)的非参数方法,直接显示网络学习什么。
思想:在网络中挑选一个特定的单元(特征),类似一个对象检测器。
网络学习了一种表示,将少量的类调优特征与形状、纹理、颜色和材料属性的分布式表示结合在一起,随后的全连接层能够对这些丰富的特征的大量组合进行建模。
2.消融实验
1)一层一层的性能不需要微调一层一层的性能需要微调
目的:为了理解那些层对检测性能至关重要,分析了VOC 2007数据集上CNN最后三层的每个层结果:
A.池化层5
B.全连接层6
C.全连接层7(最后一层)
在这里插入图片描述
2)与最近的特征学习方法进行比较
3.网络结构
使用O-net(牛津网)和T-net(多伦多网)
在这里插入图片描述
O的效果比T好但是速度比他慢
4.检测的失效分析
1)排名靠前的假阳性(FP)类型的分布
A。Loc——定位差:IoU检测与正确的类在0.1和0.5之间重叠,或重复
B。Sim——混淆了相同类别
C。Oth——对不同对象类别的混淆
D。BG——和背景类似的FP
在这里插入图片描述
我们的错误明显更多的是由于定位不好,而不是与背景或其他对象类混淆,这说明CNN feature比HOG更有分辨力。松散的定位可能是由于我们使用了自底向上的区域建议和从CNN预处理中学习到的位置不变性来进行全图像分类。第三列显示了简单的边界框回归方法如何修复许多定位错误。
2)对物体特性的敏感性
在这里插入图片描述
我们展示了我们的方法(R-CNN)有和没有微调(FT)和边界盒回归(BB)以及DPM voc-release5的图。总的来说,微调并没有降低灵敏度(max和min之间的差异),但确实对几乎所有特性的最高和最低性能子集都有显著改善。这表明微调不仅仅是简单地提高高宽比和边界框区域的最低执行子集,就像人们根据我们如何扭曲网络输入推测的那样。相反,微调改进了所有特征的鲁棒性,包括遮挡、截断、视点和部分可见性。
5.bbox的回归
使用简单的边界盒回归来提高定位性能
6.定性结果
可视化图片结果


ILSVRC2013检测数据集

1.数据概述:类别不平衡
2.区域建议:
3.训练数据:在R-CNN训练数据进行三个步骤
A.CNN微调
B.检测器SVM训练
C.边界盒回归器训练
4.使模块3的消融实验
在这里插入图片描述


语义分割


结论

我们证明了预先训练网络-带监督-以完成一个具有丰富数据的辅助任务(图像分类),然后调整网络以完成数据匮乏的目标任务(检测)是非常有效的。我们推测,“有监督的前训练/特定领域的微调”范式将对各种数据稀缺的视觉问题非常有效。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值