【R-CNN系列目标检测】（3）FAST R-CNN算法

最新推荐文章于 2024-03-25 16:57:18 发布

zizi7

最新推荐文章于 2024-03-25 16:57:18 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/zizi7/article/details/71152151

版权

机器学习专栏收录该内容

44 篇文章 0 订阅

订阅专栏

重点参考《读DL论文心得之Fast RCNN》

fast r-cnn【1】是Ross Girshick在2015年对上一年的SPP-Net算法做的改进。作者在VGG16网络的测试表明：fast r-cnn在训练阶段比r-cnn快了9倍，比spp-net快了3倍；在测试阶段比r-cnn快了213倍，比spp-net快了10倍；同时精度也有一定提升

r-cnn和spp-net的不足

1）r-cnn 和 spp-net 的训练都需要经过多个阶段：fine-tuning得到网络卷积层的特征输出、SVM对每组特征向量的学习、位置bounding box的回归

2）对r-cnn，训练和测试的时间空间开销大。每个图像提取的大量roi特征需要存储和通过cnn

3）对spp-net，虽然roi特征在最后一个卷积层才提取，省去了多次前向cnn。但由于SVM，roi特征仍需存储。此外，spp-net中的tunning无法更新spp层之前的所有权重，因此对于比较深得网络无能为力

fast r-cnn算法思路

如图1所示，算法首先通过 selective search方法生成约2K个ROI，连同图像一起输入到CNN网络；在最后一个卷积层后求取ROI位置的映射关系，使用1层的spp池化层将每个ROI统一到相同大小；最后通过两个全连接层，一个FC层后接softmax实现分类，一个FC层后接bounding box回归得到类别修正后的位置。

　　　　　　　　　　这里写图片描述
　　　　　　　　　　　　　　　　　　　　　　　　　　图1. fast r-cnn架构

ROI 池化层

是仅含1层的SPP pooling层，《论文笔记《Fast R-CNN》》里猜测，这里之所以不使用多层是为了避免重新训练

ROI池化层的输入是N个特征映射（我的理解是N张图像）和R个ROI，每个特征映射的维度为H x W x C，每个ROI为(n, r, c, h, w)，n是特征映射的索引，(r, c)是ROI左上角坐标，(h, w)是ROI高宽

ROI池化层的输出是大小一致的（max-pool）特征映射（H’ x W’ x C）

网络结构的调整

CNN网络需要经过3个调整才能应用fast r-cnn算法：
1）最后一个max pooling层替换为 ROI pooling层，输出尺寸H’ 和W’与后面的全连接层输入一致

2）最后一个全连接层+softmax层替换为两组：全连接层+softmax对K+1个类别（包括1个背景）的分类；全连接层+回归层对bounding box的调整

3）网络输入除了图像数据，还要增加ROI数据

fine-tuning训练

spp-net之所以不能tuning spp 层之前的网络，是因为每次SGD中包含了不同图像的样本，反向传播需要计算每个ROI感受野的卷积层（通常会覆盖整个图像），这样会导致梯度涣散

针对这个问题，fast r-cnn提出层次取样的方法：首先取样N个图像，对每张图像取 R/N 个ROI（R为全部ROI数），同一图像的ROI共享计算和内存

此外fast r-cnn在一次tuning中同时优化了softmax分类器和bbox回归
假定 $p=(p_0, ..., p_k)$ 是k+1个类别的softmax输出
假定 $t^k=({t_x}^k, {t_y}^k, {t_w}^k, {t_h}^k)$ 是bbox回归输出的第k类box的偏移（相对于ROI）
那么两者的损失为：