R-CNN(2014)

介绍

在这里插入图片描述

背景和问题

基于PASCL VOC 数据集上目标检测的性能在最近些年都没有什么大的突破,视觉识别任务过去十年取得进步都是基于传统算法SIFT 和HOG,都是微小的进步。有许多人进行了新方法的尝试,但是由于缺乏监督训练的算法没有取得大的突破。但是CNN 的出现以及ALexNet在ImageNet 数据集上的优秀结果(同时伴随着Relu 和Dropout 等正则化方法的应用) 带来一种可能,把CNN 的分类结果应用到目标检测领域的PASCAL VOC 数据集上会怎么样呢?

创新

这篇论文是第一篇介绍CNN 可以在PASCAL VOC 上比HOG 类特征取得更好的性能表现的文章。
主要有两个问题:
1. 使用深度网络定位目标
2. 使用少量的带注释的数据训练一个高容量的模型。
第一个问题,目标检测不像分类问题,通常考虑两种方式解决定位问题,一种是将框架定位当成一个回归问题,一种是采用滑动窗口建立一个检测器。这两种方法都不是特别好用,作者采用局部识别的方法(recognition using regions-结合了CNN 与SVM) 解决CNN 定位问题,在目标检测和语义分割中已经成功应用。测试时,该方法大约由输入图片生成2000 个独立的候选区域,使用CNN 从每个区域中提取固定长度的向量,然后使用特定类别的线性SVM 进行分类。因为模型系统包含了使用CNN 的区域候选,被作者命名为RCNN。
第二个问题,面对带标签的数据集短缺和获取困难,通常使用无监督预训练模型然后进行微调,而作者采用了有监督预训练模型,使用在ILSRVC 上训练的模型,然后在PASCAL 上进行微调,当数据短缺的时候,这是一种十分有效的方法。现在,人们称之为迁移学习。

结构

在这里插入图片描述
模型主要结构由4个过程:

  1. 采用一张输入图片

  2. 提取大约2000个从下到上的候选区域

  3. 使用一个大的区域卷积神经网络(CNN)计算每一个区域的特征

  4. 使用特定线性SVM分类每一个候选区域

    RNN在PASCAL VOC2010上取得了53.7%的mAP(mean average precision),超越了使用同样候选区域方法的35.1%.

RCNN识别

overview

主要有三步:

  1. 产生独立的候选区域
  2. 使用大型神经网络提取固定长度的特征向量
  3. 一系列特定类的线性svm分类器

候选区域方法

选定区域的方法很多,objectness , selective search ,category-independent object proposals , constrained parametric min-cuts (CPMC) , multi-scale combinatorial grouping等等,作者选择了selective search。

特征提取

作者使用基于Caffe的AlexNet从每一个候选区域提取4096维的特征向量,输入是减去均值后的227*227大小图片,这些图片经过了5个卷积层和2个全连接层。 为了将图片与Alexnet网络需要的输入格式匹配,需要先对图片进行预处理,统一变换为227大小。作者使用了一种最简单的方法,将所有图片强制转换为227,在变换之前,先对定位框进行放大,在周围增加P个像素(作者使用P=16)。
在这里插入图片描述
上图所示为变换图片的一些例子。

测试分析

使用selective search 提取大约2000 个候选区域,然后通过svm 计算得出分数,使用一种叫非极大值抑制的方法选择合适的定位框。

训练

模型

简单起见,作者直接使用Caffe提供的CNN库,AlexNet在ILSRVC2012上的预训练模型,使用SGD方法继续在候选区域上进行训练,值得注意的是AlexNet有1000个类别,而这里VOC只有20个目标类别加1个背景总共21个类别。对于候选区域,IoU(重叠区域)大于等于0.5视为positive,否则视为negative。

目标分类

想象一辆汽车,跟汽车有关的区域一定为positive,跟汽车无关的背景区域为negative,难的地方在于如何标记跟汽车有重叠的部分。作者采用IoU重叠阀值来解决这个问题。低于阀值为negative。验证集上阀值0.3,从一系列值{0,0.1,…,0.5}选取。
https://blog.csdn.net/u014061630/article/details/82818112
图片来源
在特征被提取和训练签被使用以后,就开始svm分类,由于数据过大,作者使用Hard negative的方法进行了优化。

结果

PASCAL VOC2010

在这里插入图片描述

这是作者在VOC 2010 上的结果,与4个baseline 进行了比较,尤其是UVA,使用了相同的区域候选算法,最终结果在mAP上作者的方法比UVA的35.1%足足提高了18.6%,也就是达到了53.7%。

ILSRVC2013

在这里插入图片描述
这个图片是RCNN与OverFeat的比较。

其它

特征可视化

在这里插入图片描述
通常前边几层直接可视化是容易理解的,他们捕捉到了边缘和突出的颜色特征,挑战在于更深层。作者提出了一种非参数化的方法可以直接展示网络学到了什么。挑选网络中一个特定的单元,把他看做一个目标检测器,计算在大规模的候选区域上,这个单元的激活值,从高到低排序,然后使用非极大值抑制方法,展示获得高分的区域。作者可视化了 P O O L 5 POOL_{5} POOL5,也就是网络第5层最大池化输出。该层的特征映射
6 ∗ 6 ∗ 256 = 9216 6*6*256=9216 66256=9216个维度。上图中每一行展示了256个特征单元中的6个单元,每个单元展示了 P o o l 5 Pool_{5} Pool5来的16个激活值,这些样本显示了网络学习到什么。网络显然学到了一种特征描述,结合了少量调整后的特征和形状、质感、颜色以及材料属性分散化的表现形式。全连接层FC6可以建模拥有这些丰富特征的组合结构。

layer的重要性

为了理解哪一层对于检测性能更重要,作者分析了VOC 2007的结果并做了一些列实验,最后发现去掉FC6和FC7的效果竟然还要更好,说明卷积层是学习特征最重要的部分。

结论

作者提出的方法,大大推动了目标检测的发展速度,作者的成就主要在两个方面,一是使用了了大型的卷积网络来定位和分割目标。二是使用了有监督预训练模型。这对于以后的视觉问题中数据稀少的情况给出来一种高效的解决方法。

参考文献

[1] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate
object detection and semantic segmentation. IEEE Computer Society, 2013.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值