目标检测论文精读（4）－ Fast R-CNN

最新推荐文章于 2024-04-11 20:51:45 发布

lxbzty

最新推荐文章于 2024-04-11 20:51:45 发布

阅读量657

点赞数 1

分类专栏：目标检测论文精读文章标签： R-CNN Fast R-CNN SPP object detection 目标检测

本文链接：https://blog.csdn.net/zhli99/article/details/89608900

版权

目标检测论文精读专栏收录该内容

7 篇文章 2 订阅

订阅专栏

Fast R-CNN阅读重点

Introduction
Innovation
Result

Fast R-CNN原论文地址 https://arxiv.org/pdf/1504.08083.pdf

Introduction

Challenges

在这里插入图片描述
论文作者提出当时目标检测所面临的2个主要挑战：
（1）要生成大量的候选区域。
（2）这些候选区域提供的定位比较粗糙。

Architecture

在这里插入图片描述
R-CNN主要问题在于：
（1）multi-stage
（2）空间和时间代价昂贵
（3）速度慢
SPP-net主要问题在于：
（1）multi-stage
（2）微调不能更新金字塔池化层(spp)之前的卷积参数
于是，为了规避这些问题，作者提出了Fast-RCNN，步骤是：
（1）输入一张图片和多个感兴趣的区域(ROIs)到一个全卷积的网络，得到一个feature map。
（2）根据映射关系在feature map中找到这些感兴趣区域，将这些ROIs输入到ROI池化层（特殊的spp层）池化后得到固定大小的feature map（一个ROI对应一个feature map）。
（3）然后将这些feature map输入到全连接层。
（4）最后进入2个分支结构，一个是softmax分类器，另一个是bounding box回归器。

Initialize

在这里插入图片描述
预训练网络训练初始化Fast R-CNN网络经历的3个转换：
（1）将最后一个池化层换成ROI池化层。
（2）将最后一个全连接层及后面的分类器替换成2个分支结构（softmax分类器和bounding box回归器）
（3）网络的输入是2个list：存图片的list和存ROI的list。

Mini-batch sampling

在这里插入图片描述
作者分析SPP反向传播低效的原因是每个训练样本（i.e.ROI)来自于不同的image，因此就提出了分层抽样的方法。每个mini-batch的batch_size=R，样本来自于N张image，然后从每张image中选取R/N个ROI（感兴趣区域）。

Multi-tast loss

在这里插入图片描述
Fast R-CNN的loss由分类损失和定位损失构成。每个ROL都对应这样一个L损失函数，其中p对应各个类别的softmax概率，u是真实的类别，t是预测的x，y，w，h，v则是真实框的x，y，w，h。

Truncated SVD

在这里插入图片描述
此举为了提速，做detection由于ROI数量多，所以用于计算全连接层的时间也很多，因此将一个u×v的权重矩阵分解如上图红框所示，最终将参数量从uv个减少到了t(u+v)个。为了压缩网络，单个全连接层被替换成2个全连接层，且中间没有非线性映射。

Scale invariance

在这里插入图片描述
尺度不变形的2种方法：
（1）brute force：
训练和测试的时候都直接将输入的图片裁剪或缩放成固定的一个尺度。
（2）图像金字塔
训练的时候分为单尺度训练和多尺度训练，单尺度训练将输入图片crop成一个固定size，多尺度训练是一个epoch训练一种size。

Innovation

在这里插入图片描述
Fast R-CNN的四大优势：
（1）更高的map
（2）single-stage的训练，多任务的loss
（3）训练时能更新网络每一层的参数
（4）不需要为特征缓存提供磁盘存储

Result

Test on Pascal VOC 2007、2010、2012

在这里插入图片描述
Fast R-CNN在这3个数据集上的检测结果都是最佳的，且在很多类别上都是领先的。

Training and testing time

在这里插入图片描述
Fast R-CNN的训练速度大幅提升，训练时间明显减短，测试用时也减少很多。在用了截断SVD之后，在L网络中也表现出了绝对的优势。

Timing

在这里插入图片描述
用了截断奇异值分解之后，每张图片用时明显减少，且用于全连接层计算的时间占比也大幅降低。

Softmax vs. SVM

在这里插入图片描述
作者做实验分析了发现在网络结构不太深的时候，Fast R-CNN的map比R-CNN都要低，等到了L型网络，Fast R-CNN的map超过了R-CNN，且在Fast R-CNN中使用softmax分类器比使用SVM分类器的效果更好。

注：本页面绝大多数图片来自原论文，小部分图片来自网络博客，引用本博文请注明出处。

lxbzty

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测论文精读（4）－ Fast R-CNN

Fast R-CNN阅读重点IntroductionChallengesArchitectureInitializeMini-batch samplingMulti-tast lossTruncated SVDScale invarianceInnovationResultTest on Pascal VOC 2007、2010、2012Training and testing timeTimin...
复制链接

扫一扫

专栏目录