目标检测系列4——Fast R-CNN(RoI,样本不均衡)

1 Fast R-CNN

1.1 简介

2015年被提出,改进R-CNN和SPP;

SPPNet的性能已经得到很大的改善,SPP网络也有显著的缺点。像R-CNN一样,训练过程是一个多级流水线,涉及提取特征,使用log损失对网络进行微调,训练SVM分类器,最后拟合检测框回归。特征也写入磁盘。网络之间不统一训练,造成很大的麻烦,所以接下来的Fast R-CNN就是为了解决这样的问题

论文地址:
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

Fast R-CNN采用了多项创新提高训练和测试速度来提高检测精度。Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍,测试时间快213倍,并在PASCAL VOC上得到更高的精度。与SPPnet相比,fast R-CNN训练VGG16网络比SPPNet快3倍,测试速度快10倍,并且更准确。

解决的问题:
之所以提出Fast R-CNN,主要是因为R-CNN存在以下几个问题:1、训练分多步。通过上一篇博文我们知道R-CNN的训练先要fine tuning一个预训练的网络,然后针对每个类别都训练一个SVM分类器,最后还要用regressors对bounding-box进行回归,另外region proposal也要单独用selective search的方式获得,步骤比较繁琐。2、时间和内存消耗比较大。在训练SVM和回归的时候需要用网络训练的特征作为输入,特征保存在磁盘上再读入的时间消耗还是比较大的。3、测试的时候也比较慢,每张图片的每个region proposal都要做卷积,重复操作太多。

1.2 结构

提出一个RoI pooling layer,然后整合整个模型,把CNN、RoIpooling、分类器、bbox回归几个模块整个一起训练
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
步骤:
(1)首先和R-CNN一样,使用选择性搜索算法得到2000个候选框;
(2)将整个图片输入到一个基础卷积网络,得到整张图的feature map;
(3)将选择性搜索算法的结果region proposal(RoI)被池化到固定大小的feature map中;就是将一个个不同形状的候选区域(比如3446,4836)通过ROI算法都固定为同样大小,RoI pooling layer映射到一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个RoI特征向量(此步骤是对每一个候选区域都会进行同样的操作)
(4)进行分类和回归,这个分为两部分,一个是分类,比如20类,就需要加个背景类分成21类,另一个是框回归bounding box regressor,回归框的位置。

参考下面文献:
https://blog.csdn.net/u014380165/article/details/72851319

https://blog.csdn.net/fengbingchun/article/details/87091740

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.3 特点

1.3.1 RoI pooling layer

(1)RoI pooling只是一个简单版本的SPP,目的是为了减少计算时间并且得出固定长度的向量。
在这里插入图片描述

(2)RoI池层使用最大池化将任何有效的RoI区域内的特征转换成具有H×W的固定空间范围的小feature map,其中H和W是超参数 它们独立于任何特定的RoI。

在这里插入图片描述
(3)为什么要设计单个尺度呢?这要涉及到single scale与multi scale两者的优缺点

single scale,直接将image定为某种scale,直接输入网络来训练即可。(Fast R-CNN)
multi scal,也就是要生成一个金字塔
后者比前者更加准确些,没有突更多,但是第一种时间要省很多,所以实际采用的是第一个策略,因此Fast R-CNN要比SPPNet快很多也是因为这里的原因。

1.3.2 多任务损失

在这里插入图片描述

1.4 训练

从输入端到输出端直接用一个神经网络相连,整体优化目标函数。接着我们来看为什么后面的整个网络能进行统一训练?

特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数,去掉了SVM分类这一过程,所有特征都存储在内存中,不占用硬盘空间,形成了End-to-End模型(proposal除外,end-to-end在Faster-RCNN中得以完善

注意:
注意:
注意:

使用Selective Search提取Region Proposals,没有实现真正意义上的端对端,并且没有更好的候选区域的方法

1.5 结果

(1) VOC07,2010和2012的最高的mAP
(2) 相比R-CNN,SPPnet,快速训练和测试
(3) 在VGG16中微调卷积层改善了mAP
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 代码

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晓码bigdata

如果文章给您带来帮助,感谢打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值