torchvision 中faster rcnn实现详解

最新推荐文章于 2024-04-21 15:46:09 发布

JaciusCV

最新推荐文章于 2024-04-21 15:46:09 发布

阅读量2.3k

点赞数

分类专栏：目标检测文章标签：计算机视觉

原文链接：https://zhuanlan.zhihu.com/p/133467109

版权

目标检测专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章转载自：https://zhuanlan.zhihu.com/p/133467109

1.Faster RCNN 整体思路概述

如图1.1所示，Faster RCNN 的整体框架按照功能区分，大致分为4个模块，分别是特征提取网络backbone模块、RPN模块、RoI and RoI pooling模块和RCNN模块。

图 1.1 Faster RCNN 整体框架

Backbone模块：主要负责接收输入数据，并进行数据预处理和特征提取得到输入图像对应的feature maps，并传递给下一层。这部分论文中用的VGG16和ZF框架，后来又有人用Resnet。
RPN network模块：这一模块主要有两个功能，一方面要生成一组proposals（图像中可能是前景的区域坐标），并将其传递给RoI模块；另一方面要计算RPN网络的损失，用于更新网络的参数。
RoI模块：对proposals进行降采样，并按proposals的坐标提取出feature maps中的特征，并将其传入下一层。
RCNN network模块：这一模块主要有两个功能，一方面用多层全连接网络对RoI传入的特征进行分类和回归，以得到预测目标的位置和标签；另一方面计算RCNN的损失，用于更新网络的参数。

如图1.1所示绿色框中的部分仅在训练时存在，整个结构的核心部分主要集中在后面三个部分，下面将对其进行详细的梳理。

2.Backbone模块

这一模块主要是利用效果比较好的卷积网络结构进行特征提取，这里就不详细介绍了。以VGG16为例，如图2.1所示，选取VGG16的前五层，取第五层pooling之前的数据作为feature maps。这里假设输入数据预处理后的尺度是则feature maps的尺度是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3OrcHma4-1617026232678)(https://www.zhihu.com/equation?tex=%5B3%5Ctimes600%5Ctimes800%5D)] ，则feature maps的尺度是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HApu9R4D-1617026232680)(https://www.zhihu.com/equation?tex=%5B512%5Ctimes37%5Ctimes50%5D)]。特征图中第二个和第三个维度中的每一个点都可以看成是原图中不同区域经过backbone层之后提取出的特征。

图 2.1 Backbone 的结构图

3. RPN network模块

如图3.1所示为RPN network的总体框架。

图 3.1 RPN network 整体框架及数据流关系（绿色部分表示仅在训练时存在）

3.1 RPN网络的输入输出和任务

输入：feature maps
输出：proposals（bounding box 的位置坐标）
任务：训练RPN网络；根据feature maps计算proposals

这里思考几个问题，如果按照常规的有监督学习思路对RPN网络进行组织训练，即以ground true bounding box（ground true bbox）的坐标进行回归，以其类别标签进行分类。对于分类问题问题不大，但是因为ground true bbox 的标签在原图上的随机性比较大，数据分布比较广，很难找到合适的网络使回归损失收敛。

因此作者想到了另一个方法，不直接输出box的真值，而是通过一定的映射关系（后面会讲）输出ground true bounding box相对于固定基bounding box坐标下的偏移值。这样训练起来网络要容易收敛许多。

上面说的基bounding box就是下面要讲的anchor。

注：在进行梳理之前我们先假设现在网络已经训练成功，即网络可以理想的预测出相对于基bounding box的偏移值并且生成较为准确的前景背景分类label。

3.2 Anchor 与 anchor的生成

Anchor简单来说就是在原图上的一些矩型框，但是这一系列矩形框与feature maps相关联。如图3.2所示，对于feature maps上的某一个点都会生成一定数量的anchor，论文中采用三种尺寸（128， 256， 512），以及三种长宽比（1:1， 1:2 ， 2:1），组合起来一共有九种情况，即特征图上的每个点都会生成九个anchor。在代码中用每个anchor的左上角和右下角坐标来表示其位置。以一个特征点的九个anchor为例，就是生成如下形式的box坐标矩阵，维度为[9, 4]。

[[ -84.  -40.   99.   55.]
 
[-176.  -88.  191.  103.]
 
[-360. -184.  375.  199.]
 
[ -56.  -56.   71.   71.]
 
[-120. -120.  135.  135.]
 
[-248. -248.  263.  263.]
 
[ -36.  -80.   51.   95.]
 
[ -80. -168.   95.  183.]
 
[-168. -344.  183.  359.]]

图 3.2 feature maps中某一点的anchors

但是刚才得到的坐标点是以这九个anchor的几何中心作为坐标原点得到的box坐标，因此还需要求anchors在原图坐标系下的box坐标。

首先要将feature maps映射到原图上，因为在backbone网络中对原图进行降采样得到feature maps，采样步长 stride = 16，因此将feature maps的坐标点乘以16，便可以映射回原图尺度。然后分别以这[37, 50]个点为原点，生成所有的anchors坐标。Anchor generate模块便是完成这部分功能，如图3.3所示。

图 3.3 Anchor generate 功能示意图

生成的总anchors数为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dfd6L0q0-1617026232695)(https://www.zhihu.com/equation?tex=37%5Ctimes50%5Ctimes9%3D16650)] 个。这有些类似于穷举的方法，16650个预选框，总能有一些框比较贴合实际物体所在区域。但问题是这些贴合实际的框应该与ground true bounding box有些差异，并不完全吻合。所以需要一定的修正，这就是接下来要说的问题。

3.3 RPN网络的预测值

这部分功能主要由图3. 1.a中的Head模块完成，这里需要注意的是RPN网络的预测值和输出不同。此模块共有两个输出结果：

Objectness：预测anchors是前景还是背景的可能性大小
Pre bbox delta：预测anchors与ground true bounding box 的偏移量。

Head模块接收feature maps ,首先利用 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cxzXlXma-1617026232696)(https://www.zhihu.com/equation?tex=%5B3%5Ctimes3%5D)] 的卷积进行更深层的特征提取，然后利用两个 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IwDoHx83-1617026232699)(https://www.zhihu.com/equation?tex=%5B1%5Ctimes1%5D)] 卷积分别实现分类网络和回归网络。

在物体检测中通常将有物体的位置称为前景，没有物体的位置称为背景。在RPN的分类网络中，只需要区分出前景背景信息即可，因此这是一个二分类问题，考虑到每个特征点有9个anchor，所以分类网络中的卷积网络有 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6CJMX07s-1617026232704)(https://www.zhihu.com/equation?tex=%5B9%5Ctimes2%5D%3D18)] 个通道。同理回归网络要输出对anchor的修正，所以卷积层对应有 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TETx5ZB9-1617026232705)(https://www.zhihu.com/equation?tex=%5B9%5Ctimes4%5D%3D36)] 个通道。

图 3.1.a Head 和Box decode模块

3.4 修正值与anchors关系

考虑某一特定的anchor，其中心点的坐标是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dVjZPY6L-1617026232710)(https://www.zhihu.com/equation?tex=%28x%2C+y%29)] ，宽是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7oSWt4Rz-1617026232711)(https://www.zhihu.com/equation?tex=w)] ，高是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GQJJ3Ovt-1617026232712)(https://www.zhihu.com/equation?tex=h)] ，假设它对应的ground true bounding box坐标为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NKel0MLT-1617026232713)(https://www.zhihu.com/equation?tex=%28x_0%2C+y_0%29)] ，宽是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OaqubOL9-1617026232716)(https://www.zhihu.com/equation?tex=w_0)] ，高是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UeR3vUgJ-1617026232716)(https://www.zhihu.com/equation?tex=h_0)] ，则对应的偏移值计算公式为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3BBBtt6u-1617026232719)(https://www.zhihu.com/equation?tex=%5Cbegin%7Balign%7D+t_x+%26%3D+%5Cfrac%7B%28x_0±+x%29%7D%7Bw%7D%5C%5Ct_y+%26%3D+%5Cfrac%7B%28y_0±+y%29%7D%7By%7D%5C%5C+t_w+%26%3D+log%5Cfrac%7Bw_0%7D%7Bw%7D%5C%5C+t_h+%26%3D+log%5Cfrac%7Bh_0%7D%7Bh%7D+%5Cend%7Balign%7D%5Ctag1)]

3.3中Head模块输出的便是所有anchors的偏差值，利用式(1)，可以实现RPN网络的偏差值与原值的相互转换。

3.5 解码与编码

通过3.4和3.3知道head模块输出的并不是预测bounding box的位置坐标，要求位置坐标还需要利用anchors的坐标进行转换。这里约定两个过程：

解码：已知偏差坐标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n8EXN1Pf-1617026232721)(https://www.zhihu.com/equation?tex=%28t_x%2C+t_y%2C+t_w%2C+t_h%29)]和基（在RPN中可以认为是anchor）坐标 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ECs2DwOI-1617026232726)(https://www.zhihu.com/equation?tex=%28x_1%2C+y_1%2C+x_2%2C+y_2%29)] ，求预测bounding box坐标 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yiWmiBgY-1617026232729)(https://www.zhihu.com/equation?tex=%28x_1%5E%2C+%2Cy_1%5E%2C%2C+x_2%5E%2C+%2Cy_2%5E%2C%29)] 的过程。
编码：已知ground true bbox坐标 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1zzEiqzT-1617026232730)(https://www.zhihu.com/equation?tex=%28x_1%5E%2C+%2Cy_1%5E%2C%2C+x_2%5E%2C+%2Cy_2%5E%2C%29)] 和基（在RPN中可以认为是anchor）坐标 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f99ylBwC-1617026232732)(https://www.zhihu.com/equation?tex=%28x_1%2C+y_1%2C+x_2%2C+y_2%29)] ，求偏差坐标 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9MCopgvc-1617026232733)(https://www.zhihu.com/equation?tex=%28t_x%2C+t_y%2C+t_w%2C+t_h%29)] 的过程。

图3.1.a中的Box decode 模块完成解码过程，对Head模块传来的的pre bbox delta解码之后生成在原图坐标系下的pre bounding box 的位置坐标。

图3.1.c中Box encode 完成编码过程。

具体实现还要考虑到原始图像的大小，进而对解码结果进行修整。

3.6 NMS 与生成proposals

现在假设RPN模型已经训练成功，网络处于inference阶段，Head模块可以输出较理想的objectness 和 pre bbox delta 值。在经过box decode之后会输出所有anchors的objectness得分和pre bounding box坐标。最后利用filter proposals模块完成NMS和生成proposals的任务。如图3.1.b所示，具体描述如下：

根据objectness的前景得分进行排序，按一定比例选出前12000个pre bbox 得到最初的建议区域。
考虑到一个物体可能会有多个bounding box重叠对应，所以在应用非极大值抑制（NMS）将重叠框去掉。
最后在剩余的bbox中，根据objectness前景得分随机抽取2000个box，作为最终的proposals。

图3.1.b Filter proposalss模块

3.7 RPN network的训练

为了让RPN网络能够提出良好的proposals，需要对网络进行训练。就像传统的有监督网络一样，在训练前我们需要明确，模型的预测值、真值和损失函数这三个要素。预测值在3.3中已经介绍，这里介绍真值和损失函数。图3.1.c 为训练部分结构图。

图 3.1.c RPN 训练部分结构图

3.7.1 RPN network的真值

RPN网络的预测值是对anchors的分类和回归修正，其真值也有两个——对应anchors的类别标签和真实偏差值。这一部分主要由Assign targets to anchors模块完成。

注意这两者的求取都是建立在anchors的基础之上。

为了便于理解，先介绍以下ground true的形式：

Ground true label：假设需要区分的类别有C种，则label的值属于整数[0, C]，label的个数为输入图片中目标的个数。假如C=3，有2个目标，则label = [1, 0]或[0, 2]……
Ground true bounding box：形式为box的左上角和右下角坐标如 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s21VWGti-1617026232737)(https://www.zhihu.com/equation?tex=%28x_1%2C+y_1%2C+x_2%2C+y_2%29)] ，box个数为输入图片中目标的个数。假如C=3，有2个目标，则box{[1, 2, 3, 4], [5, 6, 7, 8]}。
注：与box中对应位置的label值即为该位置的目标类别。

（1）真值标签（target labels）的求取

在这一部分标签主要要区分出前景和背景，不需要具体的分类，因此标签值有两个：

0：背景
1：前景

前景背景的区分是通过计算ground true bounding box与anchors的IoU值来区分的，这里需要计算每个ground true bbox和anchors的IoU，也就是说会形成一个IoU矩阵。假设ground true bbox有N个，则IoU大小为[N, 166500]具体的判断标准如下：

对于任何一个anchor与所有的gt box最大IoU小于阈值0.3（可以调整的参数），则视为负样本。
对于任何一个gt box，与其有最大IoU的anchor视为正样本。
对于任何一个anchor，与所有gt box的IoU大于阈值0.7（可以调整的参数），则视为正样本。
-1标签：在编程时，可以将IoU值在0.3-0.7之间的anchor标签置位-1，作为无效anchor的标记。这部分anchor不参与分类和回归损失的计算。

（2）真实坐标（target regression）的求取

这部分的主要思路是，利用IoU矩阵，对于某一anchor找到与其IoU值最大的gt box坐标，作为其真实坐标，依次找到所有的anchors真值。

注：

1）这里有一个问题：对某些不符合前景标准的anchor也进行了真值赋值，但是在后续计算中，会根据target label进行抽样，不符合前景背景标准的target regression不会被计算到。

2）这里求得的所有anchor的真值坐标是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TP0Tvvlv-1617026232738)(https://www.zhihu.com/equation?tex=%28x_1%2C+y_1%2C+x_2%2C+y_2%29)] 形式的，还需要对其进行编码操作（box code）才能得到RPN网络的回归真值target regression。

3.7.2 RPN network损失函数的计算

经过3.7.1和3.2，RPN获得了网络的预测值和真值，现在可以计算损失函数了。

（1）抽取正负样本

由于网络预测的bounding box综数接近两万，并且大部分box标签都是背景，如果都计算损失的话则正负样本失去平衡，不利于网络收敛。因此，RPN默认选择256（可调整）个bounding box进行损失计算，其中最多不超过128（可调整）个正样本。如果超过则进行随机抽取。

（2）损失函数的计算

RPN损失函数主要有两部分组成，即分类损失和回归损失，如下所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CPWZyu5m-1617026232739)(https://www.zhihu.com/equation?tex=L%28%7Bp_i%2C+t_i%7D%29+%3D+%5Cfrac%7B1%7D%7BN_%7Bcls%7D%7D%5Csum_iL_%7Bcls%7D%28p_i%2C+p_i%5E%2A%29%2B%5Clambda%5Cfrac%7B1%7D%7BN_%7Breg%7D%7D%5Csum_ip_i%5E%2AL_%7Breg%7D%28t_i%2C+t_i%5E%2A%29%5Ctag%7B2%7D)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rf5fD5jC-1617026232740)(https://www.zhihu.com/equation?tex=L_%7Bcls%7D%28p_i%2C+p_i%5E%2A%29)] 代表了晒算出来的256个box的分类损失，这里是一个二分类问题，使用的是交叉熵函数。其中 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s35kOkym-1617026232741)(https://www.zhihu.com/equation?tex=p_i)] 为真值， [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xg4QnkS9-1617026232742)(https://www.zhihu.com/equation?tex=p_i%5E%2A)] 为预测值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S8qO5sHb-1617026232743)(https://www.zhihu.com/equation?tex=L_%7Breg%7D%28t_i%2C+t_i%5E%2A%29)] 代表了回归损失，回归损失使用的是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MpWgQw1d-1617026232744)(https://www.zhihu.com/equation?tex=smooth_%7BL1%7D)] 函数，如下所示。其中 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cwbHUaeq-1617026232745)(https://www.zhihu.com/equation?tex=t_i)] 为真值， [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QzzsYUDi-1617026232747)(https://www.zhihu.com/equation?tex=t_i%5E%2A)] 为预测值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HfW3K5n4-1617026232748)(https://www.zhihu.com/equation?tex=L_%7Breg%7D%28t_i%2C+t_i%5E%2A%29+%3D+%5Csum_%7Bi%5Cin%7Bx%2C+y%2C+w%2C+h%7D%7Dsmooth_%7BL1%7D%28t_i%2C+t_i%5E%2A%29%5C%5C+smooth_%7BL1%7D%28t_i%2C+t_i%5E%2A%29+%3D+++%5Cbegin%7Bcases%7D+0.5+%5Ctimes+x%5E2+%26%26if+%5C%2C%5C%2C%5C%2C%7Cx%7C%3C1%5C%5C+%7Cx%7C-0.5%26%26otherwise+%5Cend%7Bcases%7D+%5Ctag3)]

注：在训练阶段RPN的损失函数会传递到RCNN部分一起计算总的损失函数，进而进行反馈，改善网络效果。

至此RPN部分的所有内容梳理完毕。

附：RCNN 模块和 RPN 的对比分析

RCNN部分和RPN十分的相似，本部分希望通过对二者的差异分析，使读者对最后两模块的作用和结构有一个整体的认识。

RPN的核心思想可以说是：对真值与anchors的偏差进行预测。相对来说RCNN模块的核心思想可以说是：对真值与proposals的偏差进行预测。所以所二者在实现上十分相似，概括的说有“两区别、一相似”。

区别一：feature maps不同

RPN 的feature maps是经过backbone提取的全局特征，而 RCNN 的pooling maps 是利用proposals的先验，以及原图和feature maps 的对应关系提取出的对应于每一个proposals的局部特征图。这部分提取的功能由 RoI and RoI pooling 部分完成。而且由于后续的网络是全连接网络，RoI and RoI pooling 模块还需要将提取后的局部特征图pooling到统一的尺寸。

区别二：预测的网络结构预测类别数量不同

RPN网络用的是卷积网络，RCNN用的是全连接网络。

RPN网络是二分类问题，RCNN网络是C+1分类问题。

相似一：给 proposals 分配真值的过程相似

RPN 中通过计算anchors和ground true bounding box的IoU矩阵来分配anchors对应的target labels 和 bounding box。

RCNN 中通过计算proposals和ground true bounding box的IoU矩阵来分配proposals的target labels 和bounding box。

4. RoI and RoI pooling模块

4.1 RoIs的获得

训练时由RPN网络传输过来的proposals的数量为2000个，其中仍然有很多背景框，真正的存在目标的前景占比很少。因此在进行特征提取之前要对proposals进行再次筛选。筛选的流程如图4.1所示。

计算IoU矩阵和分配标签的过程和RPN网络中Assign targets to anchors模块一致，这里只是将anchors替换成了proposals。这里就不重复介绍了。
在分配完标签之后，在所有正负样本中选出256（参数可调节）个样本，正样本数按照一定比例提取，同样比例可以调整。

最后选出的256个proposals即为RoIs。

图 4.1 RoI 和 RoI pooling 结构图

4.2 RoI pooling

在4.1中得到的RoIs区域，实际是对应原图中可能是前景和背景的bbox坐标，我们需要将这个坐标映射到feature maps上，进而提取出RoI区域对应特征图。然后再传递给后面的全连接层进行分类和回归。

这里有一个问题是，特征最后要输入到全连接层进行计算，所以要求输入的特征图大小是一样的。而由于RoI 的bbox大小不同，其提取的特征大小也不同，因此特征传递给FC层之前需要进行一定的处理，这就是RoI pooling的主要作用。

论文中统一将特征图pooling到 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0whYovBg-1617026232750)(https://www.zhihu.com/equation?tex=%5B7%5Ctimes7%5D)] 大小。

具体的方法这里就不详细介绍了。

注：由于RoI pooling在实现的时候会多次取整，导致精度不高。后来常用maskRCNN中的RoI Align代替。

5. RCNN network

5.1 RCNN的输入输出和任务

输入：RoI and RoI pooling 网络传递过来的固定维度的pooling maps特征图
输出：目标类别和位置偏差的预测值，以及RCNN Loss。
任务：训练RCNN网络；对pooling maps进行学习，利用三层全连接网络进行标签分类及位置回归。

5.2 全连接模块

这里用三层全连接层对特征进行处理，如图所示。前两层是VGG16中的第六第七层，最后一层是两个全连接层，分别对256个RoIs区域进行类别预测和位置预测。

图 5.1 全连接网络结构图

图中C代表需要检测的类别，背景算作第0类，所以类别预测输出的维度是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UvfvNSCO-1617026232752)(https://www.zhihu.com/equation?tex=%5B256%5Ctimes%281%2BC%29%5D)] 。位置预测需要对每一类都预测出位置所以输出维度是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U2CinFvH-1617026232753)(https://www.zhihu.com/equation?tex=%5B256%5Ctimes%281%2BC%29%5Ctimes4%5D)] 。