对R-CNN的简单理解

最新推荐文章于 2022-12-17 12:11:42 发布

yanxiaopan

最新推荐文章于 2022-12-17 12:11:42 发布

阅读量1.2k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/yanxiaopan/article/details/71601414

版权

深度学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

基于阅读论文和查找资料对R-CNN具有如下理解：

结构：

用selective search 生成2000个左右的region proposal
用CNN对每一个region proposal 提取特定长度的特征向量
对于每一个类别训练一个线性SVM，进行分类

训练过程：

首先用辅助数据集(ILSVRC 2012，该数据集是用于训练图像分类的数据集)训练CNN，得到CNN网络的初始参数，比随机初始参数效果要好很多。
然后将步骤1中训练的CNN的最后一个全连接层变为21个神经元（因为用于目标检测的数据集VOC中只有20个物体类别，加上背景类，共21个类别），最后一个全连接层的参数随机初始化，其他层的参数的初始值直接利用步骤1中训练好的参数。在目标检测训练CNN时，要对正负样本定义（正负样本的定义：假设某一region proposal与类别A真实的区域的重叠度IoU大于等于0.5，则认为该样本是类别A的一个正样本，否则则为类别A的一个负样本）。定义完正负样本后，用SGD(随机梯度下降法)训练CNN，在每一步SGD迭代中，batch size选择为128（包含32个正样本 96个负样本）（batch size是随机梯度下降算法中的一个参数，是指每次计算梯度的时候选择的样本数）
训练好CNN后，对于每一个类别都训练一个二分类的线性SVM（也是用目标检测的数据集VOC），训练SVM时也需要用到正负样本，在这里正负样本的定义与训练CNN时正负样本的定义不同（对于类别A,完全包含类别A的region proposal才将其定义为正样本，与类别A重叠度IoU小于0.3的样本定义为负样本）
注意：
关于数据量大不适用于内存，采用了standard hard negative mining method
补充材料中讨论了为什么在训练CNN和SVM时定义的正负样本不同?
补充材料中讨论了为什么训练了CNN后不直接利用CNN分类的结果作为最终分类的结果，而是又训练了SVM?

测试过程：

对要测试的图片提取2000个左右的region proposal
然后用CNN网络分别对这2000个region proposal 提取特征
对于每一个类别，使用为这一类别训练的SVM对步骤2中提取的特征向量打分，得到测试图片中每一个region proposal对于这一类的分数，然后利用非极大值抑制去除多余的框。

参考：
http://blog.csdn.net/u011534057/article/details/51240387
http://blog.csdn.net/u011534057/article/details/51218218
http://blog.csdn.net/u011534057/article/details/51218250

yanxiaopan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对R-CNN的简单理解

基于阅读论文和查找资料对R-CNN具有如下理解：结构： 1. 用selective search 生成2000个左右的region proposal 2. 用CNN对每一个region proposal 提取特定长度的特征向量 3. 对于每一个类别训练一个线性SVM，进行分类训练过程： 1. 首先用辅助数据集(ILSVRC 2012，该数据集是用于训练图像分类的数据集)训练CNN，得
复制链接

扫一扫