目标检测之Fast-RCNN-CSDN博客

本文链接：https://blog.csdn.net/weixin_45680994/article/details/109326940

论文链接： https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf.

Fast R-CNN是在 R-CNN的基础上进行的改进，大致框架是一致的。总体而言，Fast R-CNN相对于R-CNN而言，主要提出了三个改进：

提出了RoIPooling，避免了对提取的region proposals进行缩放到224x224，然后经过pre-trained CNN进行检测的步骤，加速了整个网络的learning与inference过程，这个是巨大的改进，并且RoIPooling是可导的，因此使得整个网络可以实现end-to-end learning，这个可以认为是Fast R-CNN相对于R-CNN最大的改进之处。
采用了Multi-task loss进行边框回归，这个在R-CNN中也有这方面的实验。
利用了截断的奇异值分解（Truncated SVD for faster detection）加速了网络。

Fast-RCNN网络架构
在这里插入图片描述
整体流程如图：

首先是读入一张图像，这里有两个分支，一路送入FCN，输出 feature maps，另一路通过selective search提取region proposals。提取的每个region proposal 都有一个对应的Ground-truth Bounding Box和Ground-truth class label。其中每个region proposals用四元数组进行定义，即(r, c, h, w)，即窗口的左上行列坐标与高和宽。值得注意的是，这里的坐标均是对应原图像的，而不是输出的feature maps。因此，还需要把原图像的坐标系映射到feature maps上。接下来就是把region proposal窗口框起来的那部分feature maps输入到RoIPooling（R-CNN是将其缩放到224x224，然后送入经过Fine-tuning的网络模型），得到固定大小的输出maps。

然后要说的就是Multi-task loss了。由图1或图2可知，网络的最终输出是针对每一个region proposal的。对于每一个region proposal会输出一个类别标签，就是这个region proposal框内框住的目标是属于什么类别，同时对每一个region proposal还进行边框回归，输出一个四元组的坐标，即，而其对应的ground-truth bounding box为，在进行边框回归的时候，利用robust L1 loss计算回归损失。这里无需赘言，参见Fast R-CNN论文 “2.3. Fine-tuning for detection”。

下面讲一下Mini-batch sampling。在进行Fine-tuning的时候，每次读入两张图像，然后在每张图像上均匀选取64个 RoIs，两张图像就是128个RoIs。也就是说，每次迭代的是RoI。这里选取的RoI不是随便选取的，而是RoI与Ground-truth bounding box的IoU≥0.5作为正样本的，也就是此时的样本有一个对应的Ground-truth bounding box与Ground-truth class label，其它的就作为背景样本。