1 Fast R-CNN
1.1 简介
2015年被提出,改进R-CNN和SPP;
SPPNet的性能已经得到很大的改善,SPP网络也有显著的缺点。像R-CNN一样,训练过程是一个多级流水线,涉及提取特征,使用log损失对网络进行微调,训练SVM分类器,最后拟合检测框回归。特征也写入磁盘。网络之间不统一训练,造成很大的麻烦,所以接下来的Fast R-CNN就是为了解决这样的问题
Fast R-CNN采用了多项创新提高训练和测试速度来提高检测精度。Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍,测试时间快213倍,并在PASCAL VOC上得到更高的精度。与SPPnet相比,fast R-CNN训练VGG16网络比SPPNet快3倍,测试速度快10倍,并且更准确。
解决的问题:
之所以提出Fast R-CNN,主要是因为R-CNN存在以下几个问题:1、训练分多步。通过上一篇博文我们知道R-CNN的训练先要fine tuning一个预训练的网络,然后针对每个类别都训练一个SVM分类器,最后还要用regressors对bounding-box进行回归,另外region proposal也要单独用selective search的方式获得,步骤比较繁琐。2、时间和内存消耗比较大。在训练SVM和回归的时候需要用网络训练的特征作为输入,特征保存在磁盘上再读入的时间消耗还是比较大的。3、测试的时候也比较慢,每张图片的每个region proposal都要做卷积,重复操作太多。
1.2 结构
提出一个RoI pooling layer,然后整合整个模型,把CNN、RoIpooling、分类器、bbox回归几个模块整个一起训练
步骤:
(1)首先和R-CNN一样,使用选择性搜索算法得到2000个候选框;
(2)将整个图片输入到一个基础卷积网络,得到整张图的feature map;
(3)将选择性搜索算法的结果region proposal(RoI)被池化到固定大小的feature map中;就是将一个个不同形状的候选区域(比如3446,4836)通过ROI算法都固定为同样大小,RoI pooling layer映射到一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个RoI特征向量(此步骤是对每一个候选区域都会进行同样的操作)
(4)进行分类和回归,这个分为两部分,一个是分类,比如20类,就需要加个背景类分成21类,另一个是框回归bounding box regressor,回归框的位置。
参考下面文献:
https://blog.csdn.net/u014380165/article/details/72851319
https://blog.csdn.net/fengbingchun/article/details/87091740
1.3 特点
1.3.1 RoI pooling layer
(1)RoI pooling只是一个简单版本的SPP,目的是为了减少计算时间并且得出固定长度的向量。
(2)RoI池层使用最大池化将任何有效的RoI区域内的特征转换成具有H×W的固定空间范围的小feature map,其中H和W是超参数 它们独立于任何特定的RoI。
(3)为什么要设计单个尺度呢?这要涉及到single scale与multi scale两者的优缺点
single scale,直接将image定为某种scale,直接输入网络来训练即可。(Fast R-CNN)
multi scal,也就是要生成一个金字塔
后者比前者更加准确些,没有突更多,但是第一种时间要省很多,所以实际采用的是第一个策略,因此Fast R-CNN要比SPPNet快很多也是因为这里的原因。
1.3.2 多任务损失
1.4 训练
从输入端到输出端直接用一个神经网络相连,整体优化目标函数。接着我们来看为什么后面的整个网络能进行统一训练?
特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数,去掉了SVM分类这一过程,所有特征都存储在内存中,不占用硬盘空间,形成了End-to-End模型(proposal除外,end-to-end在Faster-RCNN中得以完善
注意:
注意:
注意:
使用Selective Search提取Region Proposals,没有实现真正意义上的端对端,并且没有更好的候选区域的方法
1.5 结果
(1) VOC07,2010和2012的最高的mAP
(2) 相比R-CNN,SPPnet,快速训练和测试
(3) 在VGG16中微调卷积层改善了mAP