Fast-RCNN

最新推荐文章于 2024-07-22 12:27:09 发布

WZZZ0725

最新推荐文章于 2024-07-22 12:27:09 发布

阅读量121

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44214375/article/details/109065573

版权

本文深入解读Fast R-CNN的目标检测方法，重点讲解了如何解决RCNN在速度和空间效率上的挑战，包括并行化特征提取、候选区域精简和深度网络整合。通过总体框图和特征提取网络详解，揭示了Fast R-CNN的创新之处和优化策略。

摘要由CSDN通过智能技术生成

FAST-RCNN git地址

RCNN概述

简单来说，RCNN使用以下四步实现目标检测：
a. 在图像中确定约1000-2000个候选框
b. 对于每个候选框内图像块，使用深度网络提取特征
c. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类
d. 对于属于某一特征的候选框，用回归器进一步调整其位置

fast RCNN的改进之处

Fast RCNN方法解决了RCNN方法三个问题：

问题一：测试时速度慢
RCNN一张图像内候选框之间大量重叠，提取特征操作冗余。
本文将整张图像归一化后直接送入深度网络。在邻接时，才加入候选框信息，在末尾的少数几层处理每个候选框。

问题二：训练时速度慢
原因同上。
在训练时，本文先将一张图像送入网络，紧接着送入从这幅图像上提取出的候选区域。这些候选区域的前几层特征不需要再重复计算。

问题三：训练所需空间大
RCNN中独立的分类器和回归器需要大量特征作为训练样本。
本文把类别判断和位置精调统一用深度网络实现，不再需要额外存储。

以下按次序介绍三个问题对应的解决方法。

总体框图

在这里插入图片描述
首先是读入一张图像，这里有两个分支，一路送入FCN，输出 feature maps，另一路通过selective search提取region proposals（注意，Fast R-CNN论文中并没有明确说明使用selective search提取region proposals，但是Fast R-CNN是基于R-CNN的，姑且默认采用selective search提取region proposals吧。），提取的每个region proposal 都有一个对应的Ground-truth Bounding Box和Ground-truth class label。其中每个region proposals用四元数组进行定义，即(r, c, h, w)，即窗口的左上行列坐标与高和宽。值得注意的是，这里的坐标均是对应原图像的，而不是输出的feature maps。因此，还需要把原图像的坐标系映射到feature maps上。这一点也很简单，比如采用的是pre-trained 网络模型为VGG16的话，RoIPooling替换掉最后一个max pooling层的话，则原图像要经过4个max pooling层，输出的feature maps是原图像的1/16，因此，将原图像对应的四元数组转换到feature maps上就是每个值都除以16，并量化到最接近的整数。那么将region proposal的四元组坐标映射到feature maps上之后接下干什么呢？接下来就是把region proposal窗口框起来的那部分feature maps输入到RoIPooling（R-CNN是将其缩放到224x224，然后送入经过Fine-tuning的网络模型），得到固定大小的输出maps。

特征提取网络

WZZZ0725

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Fast-RCNN

FAST-RCNN git地址这里写目录标题RCNN概述fast RCNN的改进之处总体框图特征提取网络RCNN概述简单来说，RCNN使用以下四步实现目标检测：a. 在图像中确定约1000-2000个候选框b. 对于每个候选框内图像块，使用深度网络提取特征c. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类d. 对于属于某一特征的候选框，用回归器进一步调整其位置fast RCNN的改进之处Fast RCNN方法解决了RCNN方法三个问题：问题一：测试时速度慢RCNN一张图像内
复制链接

扫一扫