目标检测研究方向之多尺度目标检测

目标检测现在可以研究的方向
目标检测领域还有什么可做的?19 个方向给你建议 - 极市平台的技术博客 - CSDN博客 https://blog.csdn.net/Extremevision/article/details/86436596
总结一下就是:

  1. List item
  2. 类似ssd的精度和速度的结合,包括,RefineDet,RFBNet
  3. 目标检测从基本的选框到选anchor再到角点,比如cornernet和Grid RCNN
  4. 多尺度问题,常见的有三种思路,STDN涉及专门的尺度变换模块,多个尺度的rpn,SNIP就是这个思路,SNIPER就是先进行一个粗检测再进行一个细检测,检测出scale的关注区域,然后进行细检测。
  5. 目标检测的训练:当目标检测数据集达到一定规模,目标选框问题是否可以单独抽离出来,做好更精确的选框预训练,再在具体的数据集上主要进行选框适应性训练和分类训练?另外由于目前的目标检测backbone网络都是从图像分类网络过来的,图像分类网络之前的提法是尺度不变性,而目标检测有尺度变化性。如何从一个小的数据集上进行一个转向任务的无预训练的学习 or 有预训练的小规模数据学习训练
  6. 卷积神经网络的旋转不变性都是由数据增强和大样本的学习学到了, 旋转不变性和尺度变化会影响目标检测算法的基本框架
  7. .目标检测以及深度学习的分割、关键点检测、跟踪都需要在数据标注上耗费巨大的成本,如何采用算法进行更有效的标注是一个核心的问题,如果不能进行无监督的话,那么小规模数据的监督学习如何更有效进行训练达到大幅度精度提升将会是研究的重点。还有就是采用单图像单类别的弱标注,不进行选框标注,通过对大型目标检测数据集进行预训练,然后在这种单类单图像场景进行弱监督多类检测学习,进而泛化到多类单图像检测。
  8. IOU的算法设计和阈值的选择,今年比较有特点的是IOUNet和Cascade RCNN。
  9. 更好的NMS。
  10. one shot learning,我看来一个样本和小样本的数据增强和学习,也会有一些有意思的研究。参考评论里面的提到的参考文章:LSTD:A Low-Shot Transfer Detector for Object Detection 发表在AAAI2018.
  11. .如何实现未知目标类的检测,也就是我们常说的zero shot learning。从结合语义等信息从已知类别的目标检测,迁移到对未知类别的目标进行检测。参考论文Zero-Shot Object Detection(ECCV2018)。
  12. .如何从已经训练的模型去迁移到新增数据、新增类别的学习,也就是增量学习(Incremental Learning)。可以参考的论文有Incremental Learning of Object Detectors without Catastrophic Forgetting(ICCV2017)目标检测的论文以及End-to-End Incremental Learning(ECCV2018)。
  13. CNN、Pooling、Loss 目前都有各种各样的变体,更有效的CNN、Pooling、Loss依旧会出现
  14. 将目标检测方法的一些研究迁移到SOT(Single Object Tracking)和MOT(Multiple Object Tracking),可以有效的观察到今年表现比较好的SOT算法和MOT算法都有和检测的结合出现。单目标跟踪可参考商汤和中科院计算所的SiameseRPN:High Performance Visual Tracking with Siamese Region Proposal Network(CVPR2018)以及最新的SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(刚刚发布)。多目标跟踪可参考清华艾海舟组的REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATE SELECTION AND PERSON RE-IDENTIFICATION(CVPR2018)
  15. .模型的轻量级化,从目前的轻量级网络对于计算资源的压缩上,主要是集中在对于backebone的压缩,那么对于模型整体上针对目标检测的考虑进行再设计是否可行?
  16. 大尺寸图像的目标检测问题,目前很多检测的基本主要集中在512x512和1000x600左右的图像操作,但是在未来,4k图像和视频会成为主流,大尺寸图像的目标检测、跟踪都会成为主流,今年CVPR2018有一篇文章Dynamic Zoom-in Network for Fast Object Detection in Large Images是进行大尺寸图像的目标检测,主要是做的2k,设计了一个粗检测和精细检测的模块。所以针对大尺度的图像如何进行计算资源的压缩、有效的目标检测or跟踪是一个非常有前瞻性的研究工作。尤其是未来的网络电视剧、电影、短视频会出现更多的4k内容。、
  17. .AR场景下的跨类检测融合,这个属于我的想象,一个简单的比如是AR眼镜会跟人类的眼睛一样的视野。那么在这个场景下对于视觉获取内容的有效提取包括图像里面就包括文字、商标、各类目标等等内容的融合检测。
  18. .3d 激光雷达lidar和深度相机的目标检测,在自动驾驶这一块用的比较多,但是更精细的应用场景还是很多的,还有很多的应用场景比如裁判之类的要求更精细化的检测(包括关键点检测分割之类的)。
  19. 视频流的检测,主要是应用到移动端场景的手机或者FPGA。由于视频流的图片信息具有时间和空间相关性,相邻帧之间的特城提取网络会输出有冗余的特征图信息,会造成没必要的计算浪费。同时图片的目标检测算法在目标物体运动模糊,拍摄焦距失调,物体部分遮挡,非刚性物体罕见变形姿态的情况下,很难获得较为准确的结果。同时权衡精度、计算时间以及计算资源变得尤为重要。可参考论文包括Towards High Performance Video Object Detection for Mobiles(Arxiv Tech Report 2018)、Towards High Performance Video Object Detection(CVPR2018)、Fully Motion-Aware Network for Video Object Detection(ECCV2018),ECCV2018和CVPR2018都有两三篇,主要贴一下Jifeng Dai的工作,其它就不贴了。
    多尺度问题
    ?yolo1每一层都是使用同样大小的卷积窗口,识别超大物体或者超小物体就变的无能为力,最后一层输出的特征图是7*7,
    ?ssd最后一层的检测是之前的多个尺度(Multi-Scale)的特征图共同组成的,这样再多尺度上有所提高,但是也有明显的缺陷,最后几层的所谓的多尺度是有缺陷的,对于极小的目标识别ssd就无能为力了
    ?FPN这种网路不是一味的下采样提取语义信息,而是从顶层的每一层都进行上采样获取更准确的位置信息,类似残差网路的跳层连接.卷积操纵可以有效的提取语义信息,但是也存在错位的问题,这种上采样还原特征图的方式很好的缓解了像素不准的问题,但是计算量变大了,
    ?SNIPER就是对于尺度大类都维护一个重点的关注区域,就像狙击手每次调焦的时候,框中的区域都是最佳的尺度.并且还加入了重点排除区域
    ?
  • 0
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值