01 Faster R-CNN系列

Xlxlkkxx

已于 2023-05-16 15:38:34 修改

阅读量199

点赞数

分类专栏：检测文章标签： cnn 深度学习人工智能

于 2023-05-11 18:49:29 首次发布

本文链接：https://blog.csdn.net/weixin_63510030/article/details/130619468

版权

检测专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、 R-CNN

1. R-CNN流程（4个步骤）

2. RP的确定

3. 预训练模型+微调（backbone）

4. SVM的分类

5. bbox regression的训练

3.3 bounding box regression框回归

个人笔记

一、 R-CNN

用CNN提取出Region Proposals中的featues，然后进行SVM分类与bbox的回归。

参考博文

R-CNNhttps://blog.csdn.net/weixin_43702653/article/details/123973629?spm=1001.2014.3001.5501

1. R-CNN流程（4个步骤）

一张图像生成1K~2K个候选区域(使用Selective Search方法)
对每个候选区域，使用深度网络提取特征
特征送入每一类的SVM 分类器，判别是否属于该类
使用回归器精细修正候选框位置

2. RP的确定

区域候选框Region Proposal（RP）--------------使用Selective Search算法确定，如下：

使用一种过分割手段，将图像分割成小区域 (1k~2k 个)
计算所有邻近区域之间的相似性，包括颜色、纹理、尺度等
将相似度比较高的区域合并到一起
计算合并区域和临近区域的相似度

重复3、4过程，直到整个图片变成一个区域

在每次迭代中，形成更大的区域并将其添加到区域候选框中；

自下而上的方式可以创建从小到大的不同scale的Region Proposal

3. 预训练模型+微调（backbone）

模型需要通过CNN提取出RP中的特征，用于后面的分类与回归。

RP大小都不相同，所以需要对RP进行resize操作，变形为backbone要求的输入大小
变形之前，先在候选框周围加上16的padding，再进行各向异性缩放====不保持横纵比。
模型微调fine-tuning。将预训练模型最后的1000分类层，换成21分类层（20类物体+背景）

正负样本：

计算每个RP和GT的IoU，对于IoU>0.5的RP视为正样本，否则为负样本（即背景）

每个mini-batch随机选取32个正样本和96个负样本组成（128，正负比：1：3）

4. SVM的分类

分类之前的网络都是特征提取部分；eg: 2000个框-----------》（2000，4096）

特征提取冻结参数，开始分类（2000，4096）-----------》（2000，21）20类物体+背景

过程如下：

SVM分类中，IOU<0.3负例，IOU＞0.7正例，其余的全部丢弃；

负样本远远远多于正样本，使用hard negative mining方法（如下）：

初始时用所有样本训练，经过一轮训练后将score最高即最容易被误判为正样本的负样本加入新的样本训练集，进行训练，重复以上步骤至达到停止条件。比如分类器性能不再提升

为何hard negative mining？

正样本数目占的比例特别低，负样本太多，直接导致优化过程很慢，

很多负样本远离分界面对于优化几乎没有帮助；选取容易被误判为正样本的负样本继续训练

5. bbox regression的训练

与GT的IOU＞0.6的RP作为正样本，做回归训练.

在目标检测中，窗口一般用四维向量(x, y, w, h)来表示，分别表示窗口的中心点坐标和宽高。在下图中，窗口 P为region proposal，窗口 G为ground truth，那bounding box regression的目标呢就是：找到一种映射关系，使得 P 经过映射后会得到一个和G 比较接近的G′

6. NMS

Non-maximum suppression，即非极大值抑制。对于同一个物体，会预测出多个bounding box，NMS所做的就是去除掉多余的bounding box，只保留和ground truth重叠度最高的bounding box

二、 Fast R-CNN

R-CNN太慢、太占内存。

Fast R-CNNhttps://blog.csdn.net/weixin_43702653/article/details/124002054?spm=1001.2014.3001.5501改进之处：

1、卷积不再是对每个region proposal进行，而是直接对整张图像，这样减少了很多重复计算。原来RCNN是对每个region proposal分别做卷积，因为一张图像中有2000左右的region proposal，肯定相互之间的重叠率很高，因此产生重复计算。

2、用ROI pooling进行特征的尺寸变换，因为全连接层的输入要求尺寸大小一样，因此不能直接把region proposal作为输入。

3、regressor放进网络一起训练，每个类别对应一个regressor，用softmax代替SVM分类器。

1. Fast R-CNN算法流程

2. 候选区域生成

同R-CNN一样，利用Selective Search算法通过图像分割的方法得到一些原始区域。

Fast R-CNN与R-CNN不同的是，这些生成出来的候选区域不需要每一个都丢到卷积神经网络里面提取特征，而且只需要在特征图上映射便可

如何映射？如下图：

候选区域及正负样本问题：

Fast R-CNN中，并不适用SS算法提供的所有的候选区域，SS算法会得到2000个候选框，但是训练的过程中其实只需要使用其中的一部分

每张图像有64个region proposal（或者叫ROI）。这些ROI中约25%的作为正样本，

正样本和IOU值都大于0.5。剩下的ROI作为负样本，IOU都小于0.5。

3. 预训练模型微调（VGG-16为例）

RoI池化层取代有监督预训练后的VGG-16网络最后一层池化层；
两个并行层取代VGG-16网络的最后一层全连接层和softmax层

并行层之一是新全连接层1+原softmax层1000个分类输出修改为21个分类输出【20种类+背景】，输出21个类别的概率，共21个节点

并行层之二是新全连接层2+候选区域窗口回归层，输出对应21个类别的候选边界框回归参数(dx , dy , dw, dh )，共21x4个节点。

4. ROI Pooling

RoI池化层将每个候选区域均匀分成M×N块，对每个块进行max pooling。从而将特征图上大小不一的候选区域转变为大小统一的特征向量，送入下一层。

5. 损失计算

总损失：

分类损失：

边界框损失：

三、 Faster R-CNN

Faster R-CNNhttps://blog.csdn.net/weixin_42310154/article/details/119889682?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168379218216800197076041%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168379218216800197076041&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-119889682-null-null.142%5Ev87%5Econtrol,239%5Ev2%5Einsert_chatgpt&utm_term=Faster%20R-CNN&spm=1018.2226.3001.4187Fast R-CNN很好地解决了传统R-CNN中将Region Proposal区域分别输入CNN网络中的弊端。但是！！！始终都是用的传统Selective Search搜索方式确定Region Proposal，训练和测试时消耗了大量时间在RP搜索上。Faster R-CNN突破性地使用了RPN网络直接提取出RP，并将其融入进整体网络中，使得综合性能有较大提高，在检测速度方面尤为明显

1. Faster R-CNN算法流程

如上图，Faster RCNN主要可以分为四个模块：

特征提取网络，用于提取图像的feature maps，用于后续的RPN层和取proposal
RPN（Region Proposal Network）区域候选网络

替代了之前的Selective Search，用于生成候选框。这里任务有两部分，一个是分类：判断所有预设anchor是属于positive还是negative（即anchor内是否有目标，二分类）；还有一个bounding box regression：修正anchors得到较为准确的proposals。RPN网络相当于提前做了一部分检测，即判断是否有目标（具体什么类别这里不判），以及修正anchor使框的更准一些。

RoI Pooling

RPN生成的proposals，并从（1）中的feature maps中提取出来，生成proposals feature maps送入后续全连接层继续做分类（具体是哪一类别）和回归。

Classification and Regression

用proposals feature maps计算出具体类别，再做一次bounding box regression获得检测框最终的精确位置。

网络架构：

2. backbone

经过conv层后，feature map不变；经过pooling，feature map的宽高变为之前的一半

通常下采样16倍

一个MxN大小的图片经过backbone之后生成的feature map大小为(M/16)x(N/16)

3. RPN

上面一条获得positive和negative分类（判断是否有目标）
下面一条用于计算bounding box regression偏移量（调整框）
最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取修正后的proposals，同时剔除太小和超出边界的proposals。