Abstract
尽管最近取得了进展,但航拍图像中的目标检测仍然是一项具有挑战性的任务。航拍图像中的特定问题使得检测问题变得更加困难,例如小目标、密集目标、不同大小和不同方向的目标。为了解决小目标检测问题,我们提出了一个名为 “聚焦和检测” 的两阶段物体检测框架。第一阶段由高斯混合模型监督的目标检测器网络组成,生成构成聚焦区域的目标簇。第二阶段,也是一个目标检测器网络,预测焦点区域内的目标。还提出了不完全框抑制(IBS)方法来克服区域搜索方法的截断效应。结果表明,据作者所知,所提出的两阶段框架在 VisDrone 验证数据集上的 AP 得分为 42.06,超过了文献中报道的所有其他最先进的小目标检测方法。
1. Introduction
目标检测是一项计算机视觉任务,由两个子任务组成,即目标定位和分类。它是基本问题之一,因为许多其他任务都依赖于它,例如图像字幕、目标跟踪、实例分割和场景理解 [1]。因此,它已被研究了很长时间。随着基于深度学习的方法的进步,基于手工特征的方法,如 HOG [2] 和 SIFT [3],已经过时了。 SIFT 和 HOG 特征是低级特征,不能用作分层逐层表示,而深度模型能够将数据表示为抽象表示的分层组合。然而,由于硬件功能的发展,最近的方法变得越来越复杂。在 [4] 中,基于深度学习的方法被定义为各种组件的组合。一般来说,检测网络由主干、颈部和头部组成。在这种情况下,骨干模型是为检测任务提取特征的网络,头部是预测边界框和类别的实际检测模型,颈部位于骨干网络和头部网络之间,融合来自骨干模型不同阶段的特征图。检测头有不同的方法,例如单阶段检测和两阶段检测模型。单阶段检测模型在头部模型中不包含区域生成层 [5],而是直接在密集的位置采样上运行检测。另一方面,两阶段模型利用区域生成网络提取用于边界框回归和分类的目标区域。
空中目标检测可以归类为一般小目标检测问题的一个例子,是一个新兴领域,最近取得了进展。尽管它具有广泛的应用,例如监控、精准农业、军事监控和城市管理 [6,7],但它是最具挑战性的计算机视觉任务之一。早些时候,一些研究提出了为自然图像建立的适应航拍图像的方法 [8,9]。然而,由于这种方法[10]&#