本文为论文“Deep Neural Networks for Object Detection”阅读笔记,欢迎交流学习。
论文原文:http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection.pdf
本文解决的问题:使用DNN,检测一幅图片里大量拥有不同尺度的不同物体(detect a potentially large number object instances with varying sizes in the same image)。
本文核心思想:
DNN-based regression,识别+定位。作者将识别看作回归(regression)问题,DNN不但学习到物体的特征,还捕获了物体的几何信息,避免使用滑动窗口(速度问题)。基于DNN的对象掩模的回归,如图1所示。 基于此回归模型,可以为完整对象以及部分对象生成掩码。 单个DNN回归可以为我们提供图像中多个对象的掩码。 为了进一步提高定位的精度,将DNN定位器应用于一小组大子窗口上。全流程如图2所示。
注意:文章中提到的masks,即掩码。掩码简单的说,就是设置一些区域,使其不参加处理。图像的掩