论文阅读_Object Detection

  1. Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [J]. 2014:580-587.
    问题[1]:
    使用滑动窗法依次判断所有可能的区域速度慢、效率低;提取人工设定的特征(Haar,HOG)进行检测的方法效果不理想。
    方法:
    用Selective Search方法提取候选区域;用深度网络CNN进行特征提取;使用BBox regression的方法拟合位置框。
    步骤:

1) 候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法,超分割、非极大值抑制(NMS)区域合并)
2) 特征提取: 对每个候选区域,使用深度卷积网络提取特征 (CNN)
3) 类别判断: 特征送入每一类的SVM 分类器,判别是否属于该类
4) 位置精修: 使用回归器精细修正候选框位置(图像值域,图像能量)

效果:
本文将深度学习引入检测领域,一举将PASCAL VOC上的检测率从35.1%提升到53.7%。
本文的前两个步骤(候选区域提取+特征提取)与待检测类别无关,可以在不同类之间共用。这两步在GPU上约需13秒。
同时检测多类时,需要倍增的只有后两步骤(判别+精修),都是简单的线性运算,速度很快。这两步对于100K类别只需10秒。
评价:
是将深度学习应用到目标检测的开山之作,效果提升大,但是在训练时pipeline是隔离的:提取proposal,CNN提取特征,SVM分类,bbox regression。
作者讨论了为什么最后用SVM替代softmax,因为效果会提升4个点,作者认为原因在于softmax中的背景样本是共享的,而SVM的背景样本是独立的,更加hard,所以能够带来更好的分类效果。
主要参考文献:
J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012

  1. Girshick R. Fast R-CNN [J]. Computer Science, 2015.
    问题[2]:
    R-CNN每一个候选框(ROI)都要单独输入CNN做卷积等操作很费时;R-CNN方法不能实现end-to-end训练,且需要的存储空间大。

方法:
直接在feature map上提取ROI特征;然后将不同尺寸的图像池化到单个固定的尺度(ROI pooling),再输入到全连接层。
步骤:

1) 候选区域生成:Selective Search在一张图片中得到约2k个候选框(这里称为RoI);
2) 特征提取:使用卷积网络提取图片特征;
3) 池化:在conv5出来的feature map上,根据之前的ROI框crop出对应的patch(也就是映射回了原图),再用Rol pooling layer来统一到一样的尺度;
4) 分类与位置精修:经过两个全连接得到特征,然后用softmax进行分类,用bbox regression进行位置精修。

效果:
在测试阶段,Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升213倍和10倍;算法准确率提高。
评价:
实现了end-to-end的joint training(proposal阶段除外);R-CNN提取特征给SVM训练时候需要中间要大量的磁盘空间存放特征,FRCN去掉了SVM这一步,所有的特征都暂存在显存中,不需要额外的磁盘空间;把同张图片的prososals作为一批进行学习,训练样本只卷积了一次。但是可以考虑将region proposal部分也放到GPU上。
主要参考文献:
He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 37(9):1904-16.

  1. Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016:1-1.
    问题[3]:
    用Selective Search做候选区域推荐速度慢、效果不是很好,而且不能整合到深度学习网络中。
    方法:
    提出一个新的网络层Region Proposal Networks(RPN),把region proposal提取和Fast-RCNN部分融合进了一个网络模型。
    步骤:

1) 得到最终用来预测的feature map:图片在输入网络后,依次经过一系列conv+relu得到的feature map,额外添加一个conv+relu层,输出51*39*256维特征(feature map)。准备后续用来选取proposal,并且此时坐标依然可以映射回原图
2) 计算Anchors进行候选区域推荐: 在feature map上的每个特征点预测多个region proposals。具体作法是:把每个特征点映射回原图的感受野的中心点当成一个基准点,然后围绕这个基准点选取k个不同scale、aspect ratio的anchor。论文中3个scale(三种面积 ),3个aspect ratio( {1:1,1:2,2:1} )
3) 分类、位置精修:同fast R-CNN

效果:
在GPU上帧率为5fps,在PASCAL VOC 2007和PASCAL VOC 2012上实现了最高的目标检测准确率(2007是73.2%mAP,2012是70.4%mAP),每个图像用了300个建议框。
评价:
实现了完全的end-to-end,RPNs可以预测尺度和长宽比变化很大的region proposal,从而避免枚举多尺度和多长宽比的图片或者filters。精度已经很高,但是速度还不行。
文献:
Girshick R. Fast R-CNN [J]. Computer Science, 2015.
Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection [J]. 2016:779-788.

  1. Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection [J]. 2016:779-788.
    问题:
    基于CNN的检测算法精度已经很高,但是速度还不行。
    方法:
    直接在输出层回归bounding box的位置和类别(整张图作为网络的输入,把 Object Detection 的问题转化成一个 Regression 问题)。
    步骤:

将一幅图像分成SxS个网格(grid cell),如果某个object的中心 落在这个网格中,则这个网格就负责预测这个object。
1) 将图片resize成448*448,图片分割得到7*7网格(cell);
2) CNN提取特征和预测:全连接部分负责预测:a) 7*7*2=98个bounding box(bbox) 的坐标 和是否有物体的confidence;b) 7*7=49个cell所属20个物体的概率;
3) 过滤bbox(通过极大值抑制NMS)。
效果:
YOLO在不基于R-CNN的方法中mAP最高,但比state-of-art低,速度提升比较明显

评价:
YOLO精髓思想与R-CNN类似,但是通过共享卷积特征的方式提取proposal和目标识别。相较于SeletiveSearch提取2000个proposal进行R-CNN训练,YOLO只需要提取98个proposal,这样大大提高了训练和测试速度。能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒;使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少;泛化能力强。
YOLO对相互靠的很近的物体(挨在一起且中点都落在同一个格子上的情况),还有很小的群体 检测效果不好,这是因为一个网格中只预测了两个框,并且只属于一类;测试图像中,当同一类物体出现的不常见的长宽比和其他情况时泛化能力偏弱。
文献:
Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [J]. 2014:580-587.

  1. Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector [J]. 2016.
    问题:
    YOLO一个网格只能预测一种object,虽然实时但算法的mAP不高。
    方法:
    Faster R-CNN+YOLO,把Faster R-CNN中的RPN修改后运用到YOLO的区域选择上。
    步骤:

1) 生成多尺度的特征图;
2) 卷积滤波
3) default box:按照不同的 scale 和 ratio 生成k 个 default boxes,这种结构有点类似于 Faster R-CNN 中的 Anchor(将feature map上的点映射到原图感受野的中心点以后,在原图感受野的中心点取不同比例的box),对于一个位置上的 k 个boxes 中的每一个 box,我们需要计算出 c 个类,每一个类的 score。

效果:
SSD 300 model 的精度已经超过了Fast R-CNN,当我们用SSD在更大的图像尺寸上,500×500 训练得到的model,甚至要比 Faster R-CNN 还要高出 1.9% 的mAP。
评价:
作者利用YOLO的思路和Faster R-CNN的anchor box的思想,将两者结合起来,同时兼顾了mAP和实时性的要求,对于输入图像大小为 300*300 在 VOC2007 test 上能够达到 58 帧每秒( Titan X 的 GPU ),72.1%的mAP。
文献:
Girshick R. Fast R-CNN[J]. Computer Science, 2015.

  1. Dollar P, Appel R, Belongie S, et al. Fast Feature Pyramids for Object Detection [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(8):1532-1545.
    问题:
    目标检测时对图像进行多尺度精细搜索费时。
    方法:
    使用比较大的间隔octave计算特征,之后对octave之间的尺度特征进行推算。
    步骤:
    1) 计算λ:不同尺度的图片的特征之间的对应关系参数
    2) 计算Cs:特征通道进行缩放
    论文总结 许萌签
    2017.03
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Salient object detection是指在图像或视频中检测出视觉上显著的对象区域。通过这种技术,我们可以确定图像中最吸引人的部分,这对于许多应用程序,如图像编辑和视频压缩,非常有用。目前有多种方法用于实现Salient object detection。 一种可能的方法是利用对象检测或对象建议方法,例如FastRCNN,来提取候选对象边界框并进一步分割出其中的显著对象。另一种方法是利用边缘信息区分不同的显著对象。这些方法可以帮助我们在图像中找到显著的对象,并提取出它们的特征。 人类在视觉上能够自然地检测到显著的场景区域,并在注意到这些区域后进一步处理以提取更丰富的高级信息。计算机视觉领域的研究者对这种能力进行了深入研究,并将其应用于解决复杂的视觉问题,如场景理解。与视觉显著性相关的其他研究方向包括显著对象检测、注视预测、对象重要性、可记忆性、场景杂乱、视频趣味性、惊奇、图像质量评估等。 不幸的是,目前对于多个输入图像上的显著对象检测的研究还比较有限。这可能是因为可用于这些问题的基准数据集有限。然而,多模态数据的可获得性正在变得越来越容易,而利用诸如时空一致性和深度等附加线索将有助于更有效地进行显著目标检测。 总的来说,Salient object detection是一种用于检测图像或视频中显著对象区域的技术,可以帮助我们理解图像中最吸引人的部分,并在许多应用中发挥重要作用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【综述论文】Salient Object Detection: A Survey翻译整理](https://blog.csdn.net/weixin_45875199/article/details/106626397)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值