Abstract
无人机图像目标检测是近年来的研究热点。现有的目标检测方法在一般场景下已经取得了较好的效果,但在无人机图像上存在固有的挑战。无人机图像的检测精度受背景复杂、尺度差异大、小目标密集等因素的限制。
为了解决这些问题,我们提出了一种基于自注意力指导和多尺度特征融合的无人机图像目标检测网络(SGMFNet)。首先,设计了全局-局部特征引导(GLFG)模块。该模块可以有效地将局部信息和全局信息结合起来,使模型专注于目标区域,减少复杂背景的影响。其次,设计了改进的并行采样特征融合(PSFF)模块,实现多尺度特征的高效融合。第三,我们设计了一个逆残差特征增强(IFE)模块,该模块嵌入在新增加的检测头的前部,以增强对小目标的特征提取。最后,我们在VisDrone2019数据集上进行了大量实验。结果表明,本文提出的SGMFNet方法优于其他常用方法,在许多场景下都取得了良好的效果。
I. INTRODUCTION
无人机的高机动性和优异的性价比使其在智能交通[1]、城市管理[1]、疾病控制[3]等领域显示出巨大的应用价值。因此,无人机图像上的目标检测成为一个研究热点。
近年来,在卷积神经网络(cnn)的帮助下,自然场景中的目标检测取得了很好的检测效果。然而,与自然场景不同,无人机图像中的目标通常被复杂的背景包围,具有尺度差异显著、小目标密集排列的突出特征,这大大增加了无人机目标检测的难度。针对这三个典型问题,研究人员进行了改进,为了减轻复杂背景的干扰,注意机制被广泛应用于目标检测。例如,Yang等人[4]提出了一种由混合注意模块组成的多维注意(MDA)模块,可以有效地捕获复杂场景中的对象。Shao等人[3]介绍了一种改进的空间注意模块,显著提高了无人机图像中行人检测的准确性。Liu等[5]开发了一种中心-边界双注意模块,这是一种提高船舶检测精度的混合注意模块。然而,传统的注意力机制通常基于CNN架构,只计算特定区域的权重。相比之下,自注意可以通过计算输入序列中每个元素与所有其他元素之间的相关性来捕获更多的全局上下文信息,从而更好地指导网络关注目标区域。
在目标尺寸变化较大的情况下,多尺度特征提取和融合是解决该问题的有效方法。图像金字塔以不同大小的图像作为输入,可以使模型适应不同大小的物体。Zhang等人设计了一种双路径多尺度特征提取模块,显著提高了无人机图像中车辆检测的精度。Lin等人提出了FPN。该