论文阅读_Object Detection

最新推荐文章于 2021-10-06 22:23:23 发布

xumengfan

最新推荐文章于 2021-10-06 22:23:23 发布

阅读量460

点赞数

分类专栏：随手记

本文链接：https://blog.csdn.net/xumengfan/article/details/79646619

版权

随手记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [J]. 2014:580-587.
问题[1]：
使用滑动窗法依次判断所有可能的区域速度慢、效率低；提取人工设定的特征（Haar，HOG）进行检测的方法效果不理想。
方法：
用Selective Search方法提取候选区域；用深度网络CNN进行特征提取；使用BBox regression的方法拟合位置框。
步骤：

1) 候选区域生成：一张图像生成1K~2K个候选区域（采用Selective Search 方法，超分割、非极大值抑制（NMS）区域合并）
2) 特征提取：对每个候选区域，使用深度卷积网络提取特征（CNN）
3) 类别判断：特征送入每一类的SVM 分类器，判别是否属于该类
4) 位置精修：使用回归器精细修正候选框位置（图像值域，图像能量）

效果：
本文将深度学习引入检测领域，一举将PASCAL VOC上的检测率从35.1%提升到53.7%。
本文的前两个步骤（候选区域提取+特征提取）与待检测类别无关，可以在不同类之间共用。这两步在GPU上约需13秒。
同时检测多类时，需要倍增的只有后两步骤（判别+精修），都是简单的线性运算，速度很快。这两步对于100K类别只需10秒。
评价：
是将深度学习应用到目标检测的开山之作，效果提升大，但是在训练时pipeline是隔离的：提取proposal，CNN提取特征，SVM分类，bbox regression。
作者讨论了为什么最后用SVM替代softmax，因为效果会提升4个点，作者认为原因在于softmax中的背景样本是共享的，而SVM的背景样本是独立的，更加hard，所以能够带来更好的分类效果。
主要参考文献：
J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012

Girshick R. Fast R-CNN [J]. Computer Science, 2015.
问题[2]：
R-CNN每一个候选框（ROI）都要单独输入CNN做卷积等操作很费时；R-CNN方法不能实现end-to-end训练，且需要的存储空间大。

方法：
直接在feature map上提取ROI特征；然后将不同尺寸的图像池化到单个固定的尺度（ROI pooling），再输入到全连接层。
步骤：

1) 候选区域生成：Selective Search在一张图片中得到约2k个候选框(这里称为RoI)；
2) 特征提取：使用卷积网络提取图片特征；
3) 池化：在conv5出来的feature map上，根据之前的ROI框crop出对应的patch（也就是映射回了原图），再用Rol pooling layer来统一到一样的尺度；
4) 分类与位置精修：经过两个全连接得到特征，然后用softmax进行分类，用bbox regression进行位置精修。

效果：
在测试阶段，Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升213倍和10倍；算法准确率提高。
评价：
实现了end-to-end的joint training(proposal阶段除外)；R-CNN提取特征给SVM训练时候需要中间要大量的磁盘空间存放特征，FRCN去掉了SVM这一步，所有的特征都暂存在显存中，不需要额外的磁盘空间；把同张图片的prososals作为一批进行学习，训练样本只卷积了一次。但是可以考虑将region proposal部分也放到GPU上。
主要参考文献：
He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 37(9):1904-16.

Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016:1-1.
问题[3]：
用Selective Search做候选区域推荐速度慢、效果不是很好，而且不能整合到深度学习网络中。
方法：
提出一个新的网络层Region Proposal Networks（RPN），把region proposal提取和Fast-RCNN部分融合进了一个网络模型。
步骤：

1) 得到最终用来预测的feature map：图片在输入网络后，依次经过一系列conv+relu得到的feature map，额外添加一个conv+relu层，输出51*39*256维特征（feature map）。准备后续用来选取proposal，并且此时坐标依然可以映射回原图
2) 计算Anchors进行候选区域推荐：在feature map上的每个特征点预测多个region proposals。具体作法是：把每个特征点映射回原图的感受野的中心点当成一个基准点，然后围绕这个基准点选取k个不同scale、aspect ratio的anchor。论文中3个scale（三种面积），3个aspect ratio( {1:1,1:2,2:1} )
3) 分类、位置精修：同fast R-CNN

效果：
在GPU上帧率为5fps，在PASCAL VOC 2007和PASCAL VOC 2012上实现了最高的目标检测准确率（2007是73.2%mAP，2012是70.4%mAP），每个图像用了300个建议框。
评价：
实现了完全的end-to-end，RPNs可以预测尺度和长宽比变化很大的region proposal，从而避免枚举多尺度和多长宽比的图片或者filters。精度已经很高，但是速度还不行。
文献：
Girshick R. Fast R-CNN [J]. Computer Science, 2015.
Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection [J]. 2016:779-788.

Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection [J]. 2016:779-788.
问题：
基于CNN的检测算法精度已经很高，但是速度还不行。
方法：
直接在输出层回归bounding box的位置和类别(整张图作为网络的输入，把 Object Detection 的问题转化成一个 Regression 问题)。
步骤：

将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。
1) 将图片resize成448*448，图片分割得到7*7网格(cell)；
2) CNN提取特征和预测：全连接部分负责预测：a) 7*7*2=98个bounding box(bbox) 的坐标和是否有物体的conﬁdence；b) 7*7=49个cell所属20个物体的概率；
3) 过滤bbox（通过极大值抑制NMS）。
效果：
YOLO在不基于R-CNN的方法中mAP最高，但比state-of-art低，速度提升比较明显

评价：
YOLO精髓思想与R-CNN类似，但是通过共享卷积特征的方式提取proposal和目标识别。相较于SeletiveSearch提取2000个proposal进行R-CNN训练，YOLO只需要提取98个proposal，这样大大提高了训练和测试速度。能够达到实时的要求。在 Titan X 的 GPU 上能够达到 45 帧每秒；使用全图作为 Context 信息，背景错误（把背景错认为物体）比较少；泛化能力强。
YOLO对相互靠的很近的物体（挨在一起且中点都落在同一个格子上的情况），还有很小的群体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类；测试图像中，当同一类物体出现的不常见的长宽比和其他情况时泛化能力偏弱。
文献：
Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [J]. 2014:580-587.

Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector [J]. 2016.
问题：
YOLO一个网格只能预测一种object，虽然实时但算法的mAP不高。
方法：
Faster R-CNN+YOLO，把Faster R-CNN中的RPN修改后运用到YOLO的区域选择上。
步骤:

1) 生成多尺度的特征图；
2) 卷积滤波
3) default box：按照不同的 scale 和 ratio 生成k 个 default boxes，这种结构有点类似于 Faster R-CNN 中的 Anchor（将feature map上的点映射到原图感受野的中心点以后，在原图感受野的中心点取不同比例的box），对于一个位置上的 k 个boxes 中的每一个 box，我们需要计算出 c 个类，每一个类的 score。

效果:
SSD 300 model 的精度已经超过了Fast R-CNN，当我们用SSD在更大的图像尺寸上，500×500 训练得到的model，甚至要比 Faster R-CNN 还要高出 1.9% 的mAP。
评价:
作者利用YOLO的思路和Faster R-CNN的anchor box的思想，将两者结合起来，同时兼顾了mAP和实时性的要求，对于输入图像大小为 300*300 在 VOC2007 test 上能够达到 58 帧每秒( Titan X 的 GPU )，72.1%的mAP。
文献:
Girshick R. Fast R-CNN[J]. Computer Science, 2015.

Dollar P, Appel R, Belongie S, et al. Fast Feature Pyramids for Object Detection [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(8):1532-1545.
问题:
目标检测时对图像进行多尺度精细搜索费时。
方法:
使用比较大的间隔octave计算特征，之后对octave之间的尺度特征进行推算。
步骤:
1) 计算λ：不同尺度的图片的特征之间的对应关系参数
2) 计算Cs：特征通道进行缩放
论文总结许萌签
2017.03