Faster RCNN的学习

最新推荐文章于 2022-12-14 23:56:24 发布

小兔子乖乖-L

最新推荐文章于 2022-12-14 23:56:24 发布

阅读量370

点赞数

分类专栏：深度学习文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_44705725/article/details/106358973

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Faster RCNN

前言

前言

前段时间看了论文《基于Faster R-CNN深度网络的遥感影像目标识别方法研究》认识到了faster r-cnn深度网络，想进一步学习下，争取能够在智能板子上跑起来他的demo。
faster-rcnn Python版本源码地址：https://github.com/rbgirshick/py-faster-rcnn

新的改变

从RCNN到fast RCNN，再到Faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。Faster-RCNN引入了Region Proposal Network (RPN) ，它和检测网络共享整个的卷积特征，这样使得候选框的计算几乎不额外占用时间。RPN 网络是一个全卷积网络，在特征提取网络 CNN上增加了2个卷积层,可以完成端对端建议区域生成任务,预测出目标的建议框位置以及得分。Faster-RCNN通过共享卷积特征，进一步融合RPN和Fast R-CNN为一个网络——使用最近流行的基于注意力机制的网络技术，RPN单元指引统一后的网络查看的地方。

Faster-RCNN

在这里插入图片描述这个图自己用visio画的，有点丑，见谅见谅

卷积层（Conv layer）

如上图所示，以VGG16为例子，conv layer中包含了conv， relu ，pooling三种层，VGG16有13个conv层，13个relu层，４个pooling层。
在conv layer中：
1.所有的conv层都是kernel_size=3,pad=1
2.所有的pooling层都是kernel_size=2,stride=2
所以，一个MxN大小的矩阵经过conv_layers固定变为(M/16)x(N/16)！这样conv_layers生成的featuure map中都可以和原图对应起来。最后得到51x39x256

区域建议网络（Region Proposal Networks）

RPN 网络是一个全卷积网络(Fully Convolutional Network,FCN),是在特征提取网络 CNN上增加了2个卷积层,因此可以完成端对端地建议区域生成任务,同时能够预测出目标的建议框位置和得分.以 VGG16 网络模型为例,初始图像经过第 5 个卷积模块(卷积层+激活层+池化层)后得到512个特征图,然后区域建议网络(RPN)根据共享的特征图,生成候选区域并进行分类(前景或背景),流程结构如图2所示。
建议区域生成网络
从图2可看出,RPN具有2个分支,2个平行的全连接层：① 窗口回归层,这个分支是根据特征图的每一位置来预测对应原始图片上的建议区域；② 分类层,用来预测该建议区域属于前景和背景(正负样本)的概率,实现对每个建议区域的分类。

RPN的核心思想是使用CNN卷积神经网络直接产生建议区域,使用的方法本质上就是滑动窗口,只需要在卷积层的最后一层上进行一次滑动, 接下来的 anchor 机制和边框回归可以得到多尺度的建议区域.anchor机制的过程为：首先把每个特征点映射回原图的感受野中心当成一个基准点, 然后围绕这个基准点选取k个不同面积,不同长宽比的 anchor,anchor 的面积大小为 1282,2562,5122, 长宽比分别取值为 1,0.5,2.关于正负样本的划分,需要考察训练集中的每张图片的所有 anchor。划分流程为：
① 对每个标定的真实区域,与其重叠比例最大的 anchor 记为正样本,保证每个区域至少对应一个正样本 anchor；
② 对剩余的 anchor,如果其与每个标定区域重叠比例大于 0.7,记为正样本,每个真实区域可能会对应多个正样本 anchor, 但每个正样本 anchor 只可能对应一个所标定的真实区域；如果其与任意一个标定区域的重叠比例都小于 0.3,记为负样本；
③ 丢弃未被标记的 anchor,并且跨越图像边界的anchor也弃去不用。
不是所有的 anchor 都用来训练,每张图像中随机抽取256个anchor,前景样本和背景样本均取128个, 达到正负比例为1:1.如果一个图像中的正样本数小于 128,则多用一些负样本以满足有 256 个建议区用于训练。

候选区域（anchor）
特征可以看做一个尺度5139的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出5139个anchor中心，以及9种anchor示例。

ROI Pooling

ROI pooling层能实现training和testing的显著加速，并提高检测accuracy。该层有两个输入：

从具有多个卷积核池化的深度网络中获得的固定大小的feature maps；
一个表示所有ROI的N*5的矩阵，其中N表示ROI的数目。第一列表示图像index，其余四列表示其余的左上角和右下角坐标；

ROI pooling具体操作如下：
（1）根据输入image，将ROI映射到feature map对应位置；
（2）将映射后的区域划分为相同大小的sections（sections数量与输出的维度相同）；
（3）对每个sections进行max pooling操作；
这样我们就可以从不同大小的方框得到固定大小的相应的feature maps。值得一提的是，输出的feature maps的大小不取决于ROI和卷积feature maps大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

分类

利用已经获得的proposal featuer map，通过全连接层与softmax计算每个proposal具体属于哪个类别，输出cls_prob概率向量；同时再次利用Bounding box regression获得每个proposal的位置偏移量bbox_pred，用于回归更加精确的目标检测框。classification部分网络结构如下：
分类结构

从RIO Pooling获取到77=49大小的proposal feature maps后，送入后续的网络，可以看到做了如下２件事：
１：通过全连接层和softmax对proposal进行分类，这实际上已经是识别的范畴了
２：再次对proposals进行bounding box regression，获取更高精度的rect box*

Faster-RCNN 的训练

第一步：用ImageNet模型初始化，独立训练一个RPN网络；
第二步：仍然用ImageNet模型初始化，但是使用上一步RPN网络产生的proposal作为输入，训练一个Fast-RCNN网络，至此，两个网络每一层的参数完全不共享；
第三步：使用第二步的Fast-RCNN网络参数初始化一个新的RPN网络，但是把RPN、Fast-RCNN共享的那些卷积层的learning rate设置为0，也就是不更新，仅仅更新RPN特有的那些网络层，重新训练，此时，两个网络已经共享了所有公共的卷积层；
第四步：仍然固定共享的那些网络层，把Fast-RCNN特有的网络层也加入进来，形成一个unified network，继续训练，fine tune Fast-RCNN特有的网络层，此时，该网络已经实现我们设想的目标，即网络内部预测proposal并实现检测的功能。

Faster-RCNN 的实现

faster-rcnn Python版本源码地址： faster-rcnn.
我是在Ubuntu16.04里安装的，按照readme里的步骤来，遇到什么错误上网搜索解决一下。安装且编译成功之后可以对他自带的demo进行测试
就是对这上面几张图进行目标检测

最后会得到类似的检测结果，并且在终端会输出每一张图片检测所有建议区域的耗时，如下图所示
在这里插入图片描述
这里收集到的耗时时长其实还是挺久的，可能我的是cpu版的原因。

小兔子乖乖-L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Faster RCNN的学习

Faster RCNN前言新的改变Faster-RCNN卷积层（Conv layer）区域建议网络（Region Proposal Networks）ROI Pooling分类Faster-RCNN 的训练Faster-RCNN 的实现前言前段时间看了论文《基于Faster R-CNN深度网络的遥感影像目标识别方法研究》认识到了faster r-cnn深度网络，想进一步学习下，争取能够在智能板子上跑起来他的demo。faster-rcnn Python版本源码地址：https://github.com
复制链接

扫一扫

专栏目录