Rich feature hierarchies for accurate object detection and semantic segmentation 阅读笔记
关键词:目标检测(Object Detection);候选区域(Region Proposal);卷积神经网络(Convolutional Neural Network)
目录
Rich feature hierarchies for accurate object detection and semantic segmentation 阅读笔记
1 前人研究成果汇总
- 过去十几年,主要使用SIFT(scale invariant feature transform)和HOG(histogram of oriented gradients),这两种方法都是基于图像中梯度的方向直方图的特征提取方法。
- 之后提出了一种不受位置变化影响的模式识别机制的自组织神经网络模型(Neocognitron),该论文提出了一种用于视觉模式识别的无监督神经网络模型。该网络不受识别对象位置的影响,通过几何相似度的方法完成识别,但是其缺少监督训练算法,鉴于此缺点,学者提出通过反向传播的随机梯度下降法训练卷积神经网络。
- 卷积神经网络在1990s被大量使用,之后由于支持向量机的崛起导致其衰落下去,之后Krizhevsky使用CNN在ImageNet上的优异表现重新点燃了CNN。
2 作者核心贡献
2.1创新性观点
(1) 把高容量卷积神经网络自底向上的应用到候选区域以用来定位和分割物体。
(2) 当训练集的标签较少时,进行预训练以及特定区域的微调。
2.2研究思路与方法
作者主要聚焦于两个方面,一是通过深度网络进行物体定位,二是通过一个小规模的标注数据训练一个高容量的模型。
物体定位方面,一种方法是把定位问题看作回归问题,然而实际效果并不好。另一个方法是设计一个滑动窗口探测器,卷积神经网络使用该方法有20年的历史。我们考虑使用滑动窗口探测器来进行定位,但是输入图像有较大的感受野和步长,这使得滑块窗口探测器面临很大的挑战。为了解决这一问题,我们使用候选区域(Region Proposal)算法,通过输入图片产生2000个类别独立的候选区域,使用CNN从每个候选区域分离出固定长度的特征向量,之后使用类别线性分类器(category-specific linear SVMs)进行分类,实现过程如图所示。
数据集标注方面,目前已有的数据集稀缺,可用的数量不足以训练一个大型的CNN网络。传统的解决方法是进行无监督预训练,在此文章中则在一个较大的辅助数据集(ILSVRC)上采用监督预训练,然后在小的数据集(PASCAL)特点区域进行微调。
2.3 具体实现过程
2.3.1 模型设计
候选区域(Region proposals):生成类别独立的候选区域,使用选择性搜索算法“Selective search for object recognition”。
特征提取(Feature extraction):使用caffe框架,根据“ImageNet classification with deep convolutional neural networks”中的卷积神经网络进行特征提取。
训练分类:使用支持向量机进行训练分类。
最终区域选取,我们使用贪婪非极大值抑制法NMS(greedy non-maximum suppression),即对于两个重叠区域,一个区域的得分小于另一个区域,则该区域被丢弃,最终得到单个区域。
2.3.2 训练部分
监督预训练(Supervised pre-training):在ILSVRC 2012进行预训练。
特定区域微调(Domain-specific fine-tuning):用随机初始化的21路分类层替换CNN原先的1000路分类层。
类别分类器(Object category classifiers):通过IoU值大小,对类别进行筛选。
3 论文的理解与评价
该论文重新点燃了利用CNN进行目标检测的火种,它提出了简单、高效的目标检测算法,该算法揭露了监督预训练网络和特征区域微调手段对于目标检测是非常有效的。
但是该算法也有缺点:
- 训练对于时间和空间的消耗很大
- 目标检测速度较慢
- 训练步骤繁琐
4 英语单词积累
high-capacity convolutional neural networks (CNNs) :高容量卷积神经网络
ablation study :模型简化测试(取消掉一些模块后是否影响模型性能)
ground truth:标准答案
bounding box:你的答案
IoU:交并比
NMS(non-maximum suppression):非极大抑制,只保留极大值
SGD(stochastic gradient descent):随机梯度下降