【深度学习 & 目标检测】R-CNN系列算法全面概述（一文搞懂R-CNN、Fast R-CNN、Faster R-CNN的来龙去脉）

最新推荐文章于 2025-04-08 20:48:56 发布

为梦而生~

最新推荐文章于 2025-04-08 20:48:56 发布

阅读量1.7w

点赞数 79

分类专栏：深度学习文章标签：深度学习目标检测人工智能神经网络计算机视觉机器学习图像处理

本文链接：https://blog.csdn.net/z135733/article/details/136005255

版权

本文详细介绍了R-CNN、FastR-CNN和FasterR-CNN这三个经典的深度学习目标检测算法，从候选区域生成、特征提取、分类与回归，到速度优化和训练过程，展示了它们在计算机视觉领域的重要地位。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🚀个人主页：为梦而生~ 关注我一起学习吧！
💡相关专栏：
深度学习：现代人工智能的主流技术介绍
机器学习：相对完整的机器学习基础教学！
💡往期推荐：
【机器学习基础】一元线性回归（适合初学者的保姆级文章）
【机器学习基础】多元线性回归（适合初学者的保姆级文章）
【机器学习基础】决策树（Decision Tree）
【机器学习基础】K-Means聚类算法
 【机器学习基础】DBSCAN
【机器学习基础】支持向量机
 【机器学习基础】集成学习
 【机器学习 & 深度学习】神经网络简述
 【机器学习 & 深度学习】卷积神经网络简述
💡本期内容：R-CNN系列算法是经典的two-stage的目标检测算法，相较于one-stage精度更高，但是速度略有下降。从R-CNN到Fast R-CNN和Faster R-CNN，整个思路是：候选框选取——特征提取——对候选框进行分类（判定类别）和回归（修正候选框位置）。R-CNN系列算法在目标检测领域有着重要的影响和应用，是计算机视觉领域的重要算法之一。

0 前言

RCNN在2013年在目标检测领域首次使用深度学习和卷积神经网络，他与Alex net一起引爆了21世纪第二个十年计算机视觉领域的技术爆炸。

在这里插入图片描述

后续所有基于深度学习的目标检测——特别是两阶段目标检测算法。如Fast RCNN Faster R-CNN，都是在R-CNN上进行的迭代升级。

在这里插入图片描述

所以弄懂RCNN特别重要。甚至可以说，没弄懂RCN后边的算法根本就看不懂。

1 R-CNN

1.1 算法步骤

一张图像生成1K~2K个候选区域(使用Selective Search方法)
对每个候选区域，使用深度网络提取特征
特征送入每一类的SVM分类器，判别是否属于该类
使用回归器精细修正候选框位置

在这里插入图片描述

1.1.1 候选区域的生成

利用selective Search算法通过图像分割的方法得到一些原始区域，然后使用一些合并策略将这些区域合并，得到一个层次化的区域结构，而这些结构就包含着可能需要的物体。

在这里插入图片描述

1.1.2 提取特征

将2000候选区域缩放到227x227pixel，接着将候选区域输入事先训练好的AlexNet CNN网络获取4096维的特征得到2000×4096维矩阵。

在这里插入图片描述

1.1.3 判定类别

将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘,获得2000×20维矩阵表示每个建议框是某个目标类别的得分。分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框，得到该列即该类中得分最高的一些建议框。

在这里插入图片描述

进行非极大值抑制处理

在这里插入图片描述

1.1.4 精细修正候选框的位置

对NMS处理后剩余的建议框进一步筛选。接着分别用20个回归器对上述20个类别中剩余的建议框进行回归操作，最终得到每个类别的修正后的得分最高的bounding box。

在这里插入图片描述

如图，黄色框口P表示建议框Region Proposal，绿色窗口G表示实际框Ground Truth，红色窗口 $\hat{G}$ 表示Region Proposal进行回归后的预测窗口，可以用最小二乘法解决的线性回归问题。

1.2 算法总结

在这里插入图片描述

R-CNN算法可以分为以下步骤：

候选区域生成：利用Selective Search算法在每张图像上生成约2000个候选区域。这些候选区域被认为是可能包含目标的区域。
特征提取：将每个候选区域缩放为227×227，然后输入到预训练的CNN网络中，提取出4096维的特征向量。这一步将每个候选区域转换为固定大小的向量。
分类和回归：对于每个候选区域，使用SVM分类器进行分类，判断是否属于该类。然后使用回归器精细修正候选框的位置。

到后面我们会看到，这几个部分会不断融合，形成一个端到端的框架。

1.3 存在问题

测试速度慢:
测试一张图片约53s (CPU)。用Selective Search算法提取候选框用时约2秒，一张图像内候选框之间存在大量重叠，提取特征操作冗余。
训练速度慢:
过程及其繁琐
训练所需空间大:
对于SVM和bbox回归训练，需要从每个图像中的每个目标候选框提取特征，并写入磁盘。对于非常深的网络，如VGG16，从VOC07训练集上的5k图像上提取的特征需要数百GB的存储空间。