目标检测系列4——Fast R-CNN（RoI，样本不均衡）

最新推荐文章于 2021-10-19 09:58:41 发布

晓码bigdata

最新推荐文章于 2021-10-19 09:58:41 发布

阅读量583

点赞数 2

分类专栏： # 目标检测

本文链接：https://blog.csdn.net/xiaotiig/article/details/115857630

版权

目标检测专栏收录该内容

17 篇文章 5 订阅

订阅专栏

Fast R-CNN

1 Fast R-CNN
2 代码

1 Fast R-CNN

1.1 简介

2015年被提出，改进R-CNN和SPP；

SPPNet的性能已经得到很大的改善，SPP网络也有显著的缺点。像R-CNN一样，训练过程是一个多级流水线，涉及提取特征，使用log损失对网络进行微调，训练SVM分类器，最后拟合检测框回归。特征也写入磁盘。网络之间不统一训练，造成很大的麻烦，所以接下来的Fast R-CNN就是为了解决这样的问题

论文地址：
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

Fast R-CNN采用了多项创新提高训练和测试速度来提高检测精度。Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍，测试时间快213倍，并在PASCAL VOC上得到更高的精度。与SPPnet相比，fast R-CNN训练VGG16网络比SPPNet快3倍，测试速度快10倍，并且更准确。

解决的问题：
之所以提出Fast R-CNN，主要是因为R-CNN存在以下几个问题：1、训练分多步。通过上一篇博文我们知道R-CNN的训练先要fine tuning一个预训练的网络，然后针对每个类别都训练一个SVM分类器，最后还要用regressors对bounding-box进行回归，另外region proposal也要单独用selective search的方式获得，步骤比较繁琐。2、时间和内存消耗比较大。在训练SVM和回归的时候需要用网络训练的特征作为输入，特征保存在磁盘上再读入的时间消耗还是比较大的。3、测试的时候也比较慢，每张图片的每个region proposal都要做卷积，重复操作太多。

1.2 结构

提出一个RoI pooling layer，然后整合整个模型，把CNN、RoIpooling、分类器、bbox回归几个模块整个一起训练
在这里插入图片描述

步骤：
（1）首先和R-CNN一样，使用选择性搜索算法得到2000个候选框；
（2）将整个图片输入到一个基础卷积网络，得到整张图的feature map；
（3）将选择性搜索算法的结果region proposal（RoI）被池化到固定大小的feature map中；就是将一个个不同形状的候选区域（比如3446，4836）通过ROI算法都固定为同样大小，RoI pooling layer映射到一个固定长度的特征向量，每个特征会输入到一系列全连接层，得到一个RoI特征向量（此步骤是对每一个候选区域都会进行同样的操作）
（4）进行分类和回归，这个分为两部分，一个是分类，比如20类，就需要加个背景类分成21类，另一个是框回归bounding box regressor，回归框的位置。

参考下面文献：
https://blog.csdn.net/u014380165/article/details/72851319

https://blog.csdn.net/fengbingchun/article/details/87091740

在这里插入图片描述

1.3 特点

1.3.1 RoI pooling layer

(1)RoI pooling只是一个简单版本的SPP，目的是为了减少计算时间并且得出固定长度的向量。
在这里插入图片描述

（2）RoI池层使用最大池化将任何有效的RoI区域内的特征转换成具有H×W的固定空间范围的小feature map，其中H和W是超参数它们独立于任何特定的RoI。

在这里插入图片描述
(3)为什么要设计单个尺度呢？这要涉及到single scale与multi scale两者的优缺点

single scale，直接将image定为某种scale，直接输入网络来训练即可。（Fast R-CNN）
multi scal，也就是要生成一个金字塔
后者比前者更加准确些，没有突更多，但是第一种时间要省很多，所以实际采用的是第一个策略，因此Fast R-CNN要比SPPNet快很多也是因为这里的原因。

1.3.2 多任务损失

在这里插入图片描述

1.4 训练

从输入端到输出端直接用一个神经网络相连，整体优化目标函数。接着我们来看为什么后面的整个网络能进行统一训练？

特征提取CNN的训练和SVM分类器的训练在时间上是先后顺序，两者的训练方式独立，因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数，去掉了SVM分类这一过程，所有特征都存储在内存中，不占用硬盘空间，形成了End-to-End模型（proposal除外，end-to-end在Faster-RCNN中得以完善

注意：
注意：
注意：
使用Selective Search提取Region Proposals，没有实现真正意义上的端对端，并且没有更好的候选区域的方法

1.5 结果

(1) VOC07，2010和2012的最高的mAP
(2) 相比R-CNN，SPPnet，快速训练和测试
(3) 在VGG16中微调卷积层改善了mAP
在这里插入图片描述

2 代码

晓码bigdata

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
目标检测系列4——Fast R-CNN（RoI，样本不均衡）

Fast R-CNN1 Fast R-CNN1.1 简介1.2 结构1.3 特点1.3.1 RoI pooling layer1.3.2 多任务损失1.4 训练1.5 结果2 代码1 Fast R-CNN1.1 简介2015年被提出，改进R-CNN和SPP；SPPNet的性能已经得到很大的改善，SPP网络也有显著的缺点。像R-CNN一样，训练过程是一个多级流水线，涉及提取特征，使用log损失对网络进行微调，训练SVM分类器，最后拟合检测框回归。特征也写入磁盘。网络之间不统一训练，造成很大的麻烦，所以
复制链接

扫一扫