目标检测算法的一些讲解

最新推荐文章于 2023-10-17 14:59:28 发布

沙雅云

最新推荐文章于 2023-10-17 14:59:28 发布

阅读量761

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/yychentracy/article/details/100177441

版权

目标检测专栏收录该内容

48 篇文章 5 订阅

订阅专栏

R-CNN的过程
输入测试图像，
用selective search的方法在图像上提取2000个region Proposal
将每个region proposals缩放到227*227的大小并输入到cnn，将CNN的fc7的输出作为特征
将每个region proposal提取的cnn特征作为SVM的输入，然后进行分类
对于svm分好类的region proposals做边界框回归，用bounding box矫正原来的建议窗口，生成预测的窗口坐标。
缺点
1 训练分为多个阶段，步骤繁琐，微调网络加上训练SVM加上训练边框的回归器
2 速度慢使用GPU时候，VGG16模型处理一张图片需要47s
3 测试速度慢，整个候选区域需要运行整个前项cnn计算
4 SVM和回归是事后操作，在SVM的回归过程中，cnn特征没有被学习更新
5 训练耗时，暂用磁盘空间大，5000张图片产生几百兆的特征文件
fast-rcnn
输入图像
2 利用selective search算法在图像上从上到下提取2000左右的region proposals
将整张图片输入cnn，进行特征提取
将建议窗口映射到cnn的最后一层卷积feature map中
通过ROI pooling层将每个建议窗口生成固定尺寸的feature map
利用softMax（分类概率）和smooth L1 （边框回归）对分类概率和边框回归联合训练
相比rcnn，主要有两处不同
1最后一层使用了roi pooling layer
2损失函数使用的是多任务损失，将边框回归加入网络中进行训练
改进
fast 直接将一整张图归一化后送入CNN，最后卷积的feature map上，加入建议框信息使得在此之前的cnn运算得以共享，之前很多的建议框都进行卷积，就会有重叠，有浪费。
fast rcnn只需要将一整张图片送入网络，*一次性的提取cnn特征和建议区域，训练数据在GPU内存直接进入loss层，*这样候选区域前几层特征不在进行重复计算且不需要把大量数据存储在硬盘上。之前的就需要把数据存放在硬盘上，这种方法造成训练的性能低下，因为在硬盘上大量读写的数据就会造成训练速度的缓慢。
训练所需的空间小，将类别判断与位置回归同意使用深度网络实现，不在需要额外的存储。
faster-rcnn
输出入测试图像，
将整张图片送去CNN进行特征提取
使用RPN生成建议窗口，每张图片生成300个建议窗口
将建议窗口映射到cnn层，使得每个 roi生成固定尺寸的feature map
利用soft loss和smooth l1 loss 对分类概率和边框回归联合训练
相比faster -rcnn的不同就是
1 使用了RPN代替原来的selective search方法产生建议窗口
产生建议窗口的cnn和目标检测的cnn共享
改进
如何高效快速的产生建议框
采用了卷积网络自行的产生建议框，并且和目标检测网络共享卷积网络，使得建议框唱原来2000个减少为300个，并且建议框的质量也在提高。
4、SPP-NET
SPP为的就是解决上述的问题，做到的效果为：不管输入的图片是什么尺度，都能够正确的传入网络.
具体思路为：CNN的卷积层是可以处理任意尺度的输入的，只是在全连接层处有限制尺度——换句话说，如果找到一个方法，在全连接层之前将其输入限制到等长，那么就解决了这个问题.

在这里插入图片描述

如果原图输入是224x224，对于conv5出来后的输出，是13x13x256的，可以理解成有256个这样的filter，每个filter对应一张13x13的activation map.如果像上图那样将
activation map pooling成4x4 2x2 1x1三张子图，做max pooling后，出来的特征就是固定长度的(16+4+1)x256那么多的维度了.如果原图的输入不是224x224，出来的特征依然是(16+4+1)x256；直觉地说，可以理解成将原来固定大小为(3x3)窗口的pool5改成了自适应窗口大小，窗口的大小和activation map成比例，保证了经过pooling后出来的feature的长度是一致的.
参考文献https://www.cnblogs.com/dudumiaomiao/p/6560841.html

沙雅云

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
目标检测算法的一些讲解

R-CNN的过程输入测试图像，用selective search的方法在图像上提取2000个region Proposal将每个region proposals缩放到227*227的大小并输入到cnn，将CNN的fc7的输出作为特征将每个region proposal提取的cnn特征作为SVM的输入，然后进行分类对于svm分好类的region proposals做边界框回归，用boun...
复制链接

扫一扫