目标检测之Faster R-CNN

最新推荐文章于 2023-09-07 10:46:19 发布

haobo97

最新推荐文章于 2023-09-07 10:46:19 发布

阅读量273

点赞数

分类专栏：神经网络目标检测

本文链接：https://blog.csdn.net/weixin_45680994/article/details/109443003

版权

神经网络目标检测专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文链接: https://arxiv.org/abs/1506.01497.

一、提出

Faster R-CNN是为了改进Fast R-CNN而提出来的。因为在Fast R-CNN文章中的测试时间是不包括search selective时间的，而在测试时很大的一部分时间要耗费在候选区域的提取上。Faster R-CNN解决了耗费时间提取候选区域的问题。

整体结构

整体结构
在这里插入图片描述
具体如下图

在这里插入图片描述

Faster R-CNN由下面几部分组成：
1）卷积层(conv layers)，用于提取图片的特征，输入为整张图片，输出为提取出的特征称为feature maps
2）RPN网络(Region Proposal Network)，用于推荐候选区域，这个网络是用来代替之前的search selective的。输入为图片(因为这里RPN网络和Fast R-CNN共用同一个CNN，所以这里输入也可以认为是featrue maps)，输出为多个候选区域，这里的细节会在后面详细介绍。
3）RoI pooling，和Fast R-CNN一样，将不同大小的输入转换为固定长度的输出，输入输出和Faste R-CNN中RoI pooling一样。
4）分类和回归，这一层的输出是最终目的，输出候选区域所属的类，和候选区域在图像中的精确位置。

概念详解

1.RPN

通过上述介绍可以知道，Faster R-CNN与Fast R-CNN最大的区别就是提出了一个叫RPN(Region Proposal Networks)的网络，专门用来推荐候选区域的，RPN可以理解为一种全卷积网络，该网络可以进行end-to-end的训练，最终目的是为了推荐候选区域。
通过CNN得到的feature map怎么可以通过RPN得到与原图对应的候选区域的，换句话说，RPN输出的候选区域和softmax的结构怎么与原图中的区域进行对应的。要解决这个疑问就得先理解anchors的概念。

2.anchor

anchors可以理解为一些预设大小的框，anchors的种类用k表示，在原文中k=9，由3种面积(12 8 2 128^2128 2,25 6 2 256^2256 2 ,51 2 2 512^2512 2 )和3种长宽比(1:1,1:2,2:1)组成，这里anchors的大小选取是根据检测时的图像定义，在检测时会将最小边缩放到600，最大边不超过1000。

3.RPN与anchor之间的关系

在这里插入图片描述
解释一下上面这张图：

1）在原文中使用的是ZF model中，其Conv Layers中最后的conv5层num_output=256，对应生成256张特征图(feature maps)，所以相当于feature map每个点都是256-dimensions
2）在conv5之后，做了rpn_conv/3x3卷积且num_output=256，相当于每个点又融合了周围3x3的空间信息），同时256-d不变
3）假设在conv5 feature map中每个点上有k个anchor（原文如上k=9），而每个anhcor要分foreground和background，所以每个点由256d feature转化为cls=2k scores；而每个anchor都有[x, y, w, h]对应4个偏移量，所以reg=4k coordinates（scores和coordinates为RPN的最终输出）
4）补充一点，全部anchors拿去训练太多了，训练程序会在合适的anchors中随机选取128个postive anchors+128个negative anchors进行训练

4.RPN网络与Fast R-CNN网络的权值共享

RPN最终目的是得到候选区域，但在目标检测的最终目的是为了得到最终的物体的位置和相应的概率，这部分功能由Fast R-CNN做的。因为RPN和Fast R-CNN都会要求利用CNN网络提取特征，所以文章的做法是使RPN和Fast R-CNN共享同一个CNN部分。
Faster R-CNN的训练方法主要分为两个，目的都是使得RPN和Fast R-CNN共享CNN部分，如下图所示

在这里插入图片描述
一个是迭代的，先训练RPN，然后使用得到的候选区域训练Fast R-CNN，之后再使用得到的Fast R-CNN中的CNN去初始化RPN的CNN再次训练RPN(这里不更新CNN，仅更新RPN特有的层)，最后再次训练Fast R-CNN(这里不更新CNN，仅更新Fast R-CNN特有的层)。
还有一个更为简单的方法，就是end-to-end的训练方法，将RPN和Fast R-CNN结合起来一起训练，tf版本的代码有这种方式的实现。

有待完善。。

haobo97

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测之Faster R-CNN

论文链接: https://arxiv.org/abs/1506.01497.一、提出Faster R-CNN是为了改进Fast R-CNN而提出来的。因为在Fast R-CNN文章中的测试时间是不包括search selective时间的，而在测试时很大的一部分时间要耗费在候选区域的提取上。Faster R-CNN解决了耗费时间提取候选区域的问题。整体结构整体结构具体如下图Faster R-CNN由下面几部分组成：1）卷积层(conv layers)，用于提取图片的特征，输入为整张图片，
复制链接

扫一扫