Remote Sensing Object Detection Meets Deep Learning: A Meta-review of Challenges and Advances
遥感目标检测与深度学习的相遇:挑战与进展的元综述
0.论文摘要和作者信息
摘要
遥感目标检测(RSOD)是遥感领域最基础和最具挑战性的任务之一,长期以来一直受到人们的关注。近年来,深度学习技术展示了强大的特征表示能力,并导致了RSOD技术发展的巨大飞跃。在这个技术快速发展的时代,这篇综述旨在全面回顾基于深度学习的RSOD方法的最新成就。这篇综述涵盖了300多篇论文。我们确定了RSOD中的五个主要挑战,包括多尺度目标检测、旋转目标检测、弱目标检测、微小目标检测和有限监督下的目标检测,并以分层划分的方式系统地回顾了相应的方法。我们还回顾了RSOD领域广泛使用的基准数据集和评估指标,以及RSOD的应用场景。为进一步推进RSOD的研究提供了未来的研究方向。
索引术语-目标检测、遥感图像、深度学习、技术演进
作者信息
Xiangrong Zhang, Tianyang Zhang, Guanchun Wang, Peng Zhu, Xu Tang, and Licheng Jiao are with the School of Artificial Intelligence, Xidian University, Xi’an 710071, China (e-mail: xrzhang@mail.xidian.edu.cn). Xiuping Jia is with the School of Engineering and Information Technology, University of New South Wales, Canberra, ACT 2612, Australia.
1.研究背景
随着地球观测技术的快速进步,遥感卫星(如Google Earth[1]、WordWide-3[2]和Gaofen系列卫星[3]-[5])在空间、时间和光谱分辨率方面取得了显著提高,现在可以获得大量遥感图像。受益于可用RSI的急剧增加,人类进入了一个遥感大数据时代,RSI的自动解译成为一个活跃的产量挑战性课题[6]-[8]。
RSOD旨在确定给定RSI中是否存在感兴趣的目标,并返回每个预测目标的类别和位置。本调查中的术语“目标”是指人造或高度结构化的目标(如飞机、车辆和船舶),而不是非结构化的场景目标(如土地、天空和草地)。作为RSI自动解释的基石,RSOD受到了极大的关注。
一般来说,RSI是在具有不同地面采样距离(GSD)的头顶视点拍摄的,并且覆盖了地球表面的广泛区域。结果,地理空间目标在规模上表现出更显著的多样性,角度和外观。基于RSI中地理空间目标的特点,我们总结了RSOD在以下五个方面的主要挑战:
(1)巨大的尺度变化。一方面,不同类别的目标通常存在巨大的比例变化,如图1(b)所示:车辆可以小至10个像素区域,而飞机可以比车辆大20倍。另一方面,类别内目标也表现出广泛的尺度。因此,检测模型需要处理大规模和小规模目标。
(2)任意取向。独特的头顶视点导致地理空间目标通常以任意方向分布,如图1(c)所示。这种旋转目标检测任务加剧了RSOD的挑战,使得检测器能够感知方向非常重要。
(3)弱特征响应。通常,RSI包含复杂的上下文和大量的背景噪声。如图1(a)所示,一些车辆被阴影遮挡,并且周围的背景噪声往往具有与车辆相似的外观。这种复杂的干扰可能会淹没感兴趣的目标并恶化它们的特征表示,这导致感兴趣的目标被呈现为弱的特征响应[9]。
(4)微小目标。如图1(d)所示,微小目标往往表现出极小的尺度和有限的外观信息,导致质量差的特征表示。此外,当前流行的检测范式不可避免地削弱甚至丢弃了微小目标的表示[10]。微小目标检测中的这些问题给现有的检测方法带来了新的困难。
(5)昂贵的注释。地理空间目标在尺度和角度方面的复杂特征,以及细粒度注释所需的专家知识[11],使得RSI的精确框级注释成为一项耗时耗力的任务。然而,当前基于深度学习的检测器严重依赖于丰富的标记良好的数据来达到性能饱和。因此,在缺乏足够监督信息的情况下,有效的RSOD方法仍然具有挑战性。
图1。遥感图像的典型示例。(a)复杂的上下文和大量的背景噪声导致目标的特征响应较弱。(b)类别间和类别内目标都存在巨大的尺度差异。(c)目标以任意方向分布。(d)微小目标往往表现出极小的尺度。
为了应对这些挑战,在过去二十年中出现了许多RSOD方法。早期,研究人员采用模板匹配[12]-[14]和先验知识[15]-[17]进行遥感场景中的目标检测。这些早期的方法更多地依赖于手工制作的模板或先验知识,导致结果不稳定。
后来,机器学习方法[18]–[21]已经成为RSOD的主流,它将目标检测视为一项分类任务。具体地,机器学习模型首先从输入图像中搜索一组目标建议,并提取这些目标建议的纹理、上下文和其他特征。然后,它采用独立的分类器来识别这些目标建议中的目标类别。然而,来自机器学习方法的基于浅层学习的特征显著限制了目标的表示,尤其是在更具挑战性的场景中。此外,基于机器学习的目标检测方法不能以端到端的方式训练,这在遥感大数据时代不再适用。
最近,深度学习技术[22]已经从海量数据中展示了强大的特征表示能力,计算机视觉中最先进的检测器[23]-[26]实现了与人类相媲美的目标检测能力[27]。利用深度学习技术的先进进展,各种基于深度学习的方法已经主导了RSOD,并导致了检测性能的显著突破。与传统方法相比,深度神经网络架构可以提取高级语义特征,并获得更鲁棒的目标特征表示。此外,高效的端到端训练方式和自动化的特征提取方式使得基于深度学习的目标检测方法更适合遥感大数据时代的RSOD。
随着RSOD的流行,近年来发表了许多地理空间目标检测调查[9]、[28]-[34]。例如,Cheng等人[29]回顾了RSOD的早期发展。韩等人[9]重点研究了RSI中的小目标和弱目标检测。在[30]中,作者回顾了飞机检测方法。李等人[31]根据各种改进策略,对遥感界基于深度学习的探测器进行了彻底的调查。此外,一些工作[28], [33], [34]主要集中在发布RSOD的新基准数据集,并简要回顾了遥感领域的目标检测方法。与以往的工作相比,本调查基于地理空间目标的特征,全面分析了RSOD中的主要挑战,并根据这些挑战对基于深度学习的遥感目标检测器进行了系统的分类和总结。此外,这项工作回顾了300多篇关于RSOD的论文,从而进行了更全面和系统的调查。
图2示出了本综述中目标检测方法的分类。根据RSOD中的主要挑战,我们将当前基于深度学习的RSOD方法分为五大类:多尺度目标检测、旋转目标检测、弱目标检测、微小目标检测和有限监督下的目标检测。在每个类别中,我们根据针对特定类别挑战设计的改进策略或学习范式进一步总结子类别。对于多尺度目标检测,我们主要回顾了三种广泛使用的方法:数据增强策略、多尺度特征表示和高质量多尺度锚点生成。关于旋转目标检测,我们主要关注旋转检测框表示和旋转不敏感特征学习。对于弱目标检测,我们将其分为两类:背景噪声抑制和相关上下文挖掘。对于微小目标检测,我们将其细化为三个流:判别特征提取、超分辨率重建和改进的检测度量。根据学习范式,我们将有限监督下的目标检测分为弱监督目标检测、半监督目标检测和少样本目标检测。值得注意的是,每个子类别中仍然有详细的划分,如图2中的圆角矩形所示。这种层次划分提供了对现有方法的系统回顾和总结。它有助于研究人员更全面地了解RSOD,并促进进一步的进展,这是本综述的主要目的。
图2。本文综述了基于深度学习的RSOD方法的结构化分类。采用层次划分来详细描述每个子类别。
综上所述,本次审查的主要贡献如下:
•我们根据地理空间目标的特征全面分析了RSOD中的主要挑战,包括巨大的尺度变化、任意的方向、弱的特征响应、微小的目标和昂贵的注释。
•我们系统地总结了遥感界中基于深度学习的目标检测器,并根据他们的动机。
•我们对RSOD的未来研究方向进行了前瞻性讨论,以激励RSOD的进一步发展。
2.多尺度目标检测
由于RSIs之间不同的空间分辨率,巨大的尺度变化是RSOD中众所周知的具有挑战性的问题,并严重降低了检测性能。如图3所示,我们展示了DOTAv2.0数据集中每个类别的目标像素区域的分布[33]。显然,不同类别之间的比例差异很大,其中小型车辆可能仅包含小于10个像素区域,而机场超过 1 0 5 10^5 105个像素区域。更糟糕的是,巨大的类别内尺度变化进一步加剧了多尺度目标检测的困难。为了解决巨大的尺度变化问题,目前的研究主要分为数据扩充、多尺度特征表示和多尺度锚点生成。图4给出了多尺度目标检测方法的简要概述。
图3.DOTAV2.0数据集中每个类别的比例变化(类别的简称可参考[33])。类别间和类别内都存在巨大的尺度差异。
图4。多尺度目标检测方法的简要总结。
A.数据扩充
数据扩充是一种简单但广泛应用的增加数据集多样性的方法。对于多尺度目标检测中的尺度变化问题,图像缩放是一种直接有效的增强方法。赵等人[35]将多尺度图像金字塔馈送到多个网络中,并融合这些网络的输出特征以生成多尺度特征表示。在[36]中,Azimi等人提出了一种组合图像级联和特征金字塔网络来提取各种尺度上的目标特征。虽然图像金字塔可以有效地提高对多尺度目标的检测性能,但严重增加了推理时间和计算复杂度。为了解决这个问题,Shamsolmoali等人[37]设计了一种轻量级图像金字塔模块(LIPM)。所提出的LIPM接收多个下采样图像以生成多尺度特征图,并将输出的多尺度特征图与来自主干的相应尺度特征图融合。此外,一些现代数据增强方法(例如,Moscia和Stitcher[38])在多尺度目标检测中也显示出显著的有效性,尤其是对于小目标[39]–[41]。
B.多尺度特征表示
RSOD的早期研究通常利用主干的最后一个单一特征图来检测目标,如图5(a)所示。然而,这种单尺度特征图预测限制了检测器处理具有宽尺度范围的目标[42]–[44]。因此,多尺度特征表示方法被提出,并成为RSOD中巨大目标尺度变化问题的有效解决方案。目前的多尺度特征表示方法主要分为三股:多尺度特征集成、金字塔特征层次和特征金字塔网络。
图5。单尺度特征表示和多尺度特征表示的六种范例。(a)单尺度特征表示。(b)多尺度特征集成。(c)金字塔特征层次。(d)特征金字塔网络。(e)自上而下和自下而上。(f)跨尺度特征平衡。
1)多尺度特征集成:卷积神经网络(CNN)通常采用深度层次结构,不同层次的特征具有不同的特性。浅层特征通常包含细粒度特征(例如,目标的点、边缘和纹理)并提供详细的空间位置信息,这更适合于目标定位。相反,来自较高层的特征显示出更强的语义信息,并呈现用于目标分类的判别信息。为了组合来自不同层的信息并生成多尺度表示,一些研究人员引入了多层特征集成方法,将来自多层的特征集成到单个特征图中,并在该重建的特征图上执行检测[45]–[52]。图5(b)描绘了多层特征集成方法的结构。
Zhang等[48]设计了一种分层鲁棒CNN,通过融合三个不同层的多尺度卷积特征提取分层空间语义信息,并引入多个全连接层来增强网络的旋转和缩放鲁棒性。考虑到多层特征之间的不同范数,Lin等人[49]在集成之前对每个特征应用L2归一化,以保持网络训练阶段的稳定性。与以前在卷积层级别的多尺度特征集成不同,Zheng等人[51]设计了HyBlock来构建层内级别的多尺度特征表示。
HyBlock采用具有锥体感受野的可分离卷积来学习超尺度特征,缓解了RSOD中的尺度变化问题。
2)金字塔特征层次:金字塔特征层次背后的关键洞察力是,不同层中的特征可以编码来自不同尺度的目标信息。例如,小目标更可能出现在浅层中,而大目标往往存在于深层中。因此,金字塔特征层次结构采用多层特征进行独立预测,以检测具有宽比例范围的目标,如图5(c)所示。SSD[53]是金字塔特征层次的典型代表,在自然场景[54]-[56]和遥感场景[57]-[63]中都有广泛的扩展应用。
为了提高小型车辆的检测性能,Liang[60]等人在SSD中添加了一个额外的缩放分支,该分支由反卷积模块和平均池化层组成。参考SSD中的分层回归层,Wang等人[58]介绍了尺度不变回归层(SIRLs),其中采用三个孤立的回归层来捕获全尺度目标的信息。在SIRLs的基础上,引入了一种新的特定尺度联合损耗来加速网络收敛。在[64]中,李等人提出了在RPN和检测子网络中引入分层选择性过滤层的HSF-Net。具体地,分层选择性滤波层采用具有不同核大小(例如,1 × 1、3 × 3和5 × 5)的三个卷积层来获得多个感受野特征,这有利于多尺度船舶检测。
3)特征金字塔网络(Feature Pyramid Networks):金字塔特征层次方法使用独立的多级特征进行检测,忽略了不同级别特征之间的互补信息,导致低级别特征的语义信息较弱。为了解决这个问题,林等人[65]提出了特征金字塔网络(FPN)。如图5(d)所示,FPN引入了一种自上而下的路径,将丰富的语义信息从高层特征转移到浅层特征,导致所有级别的丰富语义特征(请参考[65]中的详细信息)。由于FPN在多尺度目标检测方面的显著改进,FPN及其扩展[66]–[68]在多尺度特征表示中起着主导作用。
考虑到地理空间目标(如桥梁、港口和机场)的极端纵横比,Hou等人[69]提出了一种非对称特征金字塔网络(AFPN)。AFPN采用非对称卷积块来增强关于十字形骨架的特征表示,并提高大纵横比目标的性能。Zhang等[70]设计了一种拉普拉斯特征金字塔网络(LFPN),将高频信息注入到多尺度金字塔特征表示中,这对于精确的目标检测是有用的,但被以前的工作所忽略。在[71]中,Zhang等人引入了高分辨率特征金字塔网络(HRFPN),以充分利用高分辨率特征表示,从而实现精确和鲁棒的SAR船舶检测。此外,一些研究人员将新颖的特征融合模块[72], [73]、注意力机制[74]–[77]或膨胀卷积层[78], [79]集成到FPN中,以进一步获得更具区分性的多尺度特征表示。
FPN引入了一种自上而下的路径,将高层语义信息传递到浅层,而低层空间信息在主干网中长距离传播后仍然在顶层丢失。利用这个问题,傅等人[80]提出了一种特征融合架构(FFA),该架构将辅助的自下而上路径集成到FPN结构中,以通过短路径将低级空间信息传输到顶层特征,如图5(e)所示。FFA确保检测器提取具有丰富语义和详细空间信息的多尺度特征金字塔。同样,在[81], [82]中,作者引入了一种双向FPN,该FPN通过可学习参数学习不同级别特征的重要性,并通过迭代的自上而下和自下而上的路径融合多级别特征。
与上述顺序增强途径[80]不同,一些研究[83]-[94]采用了跨层次的特征融合方式。如图5(f)所示,跨级特征融合方法充分收集所有级别的特征,以自适应地获得平衡的特征图。程等人[83]利用特征级联操作实现跨尺度特征融合。考虑到来自不同层次的特征对特征融合应该有不同的贡献,Fu等人[84]提出了基于级别的注意力,以学习每个级别特征的独特贡献。由于transformer结构强大的全局信息提取能力,一些工作[88]、[89]引入了transformer结构来集成和细化多级特征。在[90]中,Chen等人提出了一种级联注意网络,其中引入了位置监督来增强多级特征的语义信息。
C.多尺度锚生成
除了数据扩充和多尺度特征表示方法之外,多尺度锚点生成还可以解决RSOD中巨大的目标尺度变化问题。由于自然场景和遥感场景中目标尺度范围的差异,一些研究[95]-[104]修改了常见目标检测中的锚点设置,以更好地覆盖地理空间目标的尺度。
Guo等[95]在检测器中注入了具有更多尺度和纵横比的额外锚点,用于多尺度目标检测。Dong等[98]根据训练集中目标尺度的统计量,设计了更合适的锚定尺度。Qiu等[99]将原始的方形RoI特征扩展为垂直、方形和水平RoI特征,并融合这些RoI特征,以更灵活的方式表示不同纵横比的目标。上述方法遵循固定的锚点设置,而当前的研究[100]-[104]试图在训练阶段动态学习锚点。考虑到不同类别之间的纵横比变化,Hou等人[100]设计了一种新的自适应纵横比锚(SARA)来自适应地学习每个类别的适当纵横比。SARA将可学习的类别纵横比值嵌入到回归分支中,以利用位置回归损失的梯度自适应地更新每个类别的纵横比。受GA-RPN[105]的启发,一些研究人员[102]-[104]在检测器中引入了轻量级子网络,以自适应地学习锚点的位置和形状信息。
3.旋转目标检测
目标的任意方向是RSOD中的另一个主要挑战。由于RSI中的目标是从鸟瞰图中获取的,它们表现出任意方向的属性,因此在一般目标检测中广泛使用的水平检测框(HBB)表示不足以准确定位旋转目标。因此,许多研究人员将注意力集中在地理空间目标的任意方向属性上,这可以概括为旋转目标表示和旋转不变特征学习。图6中描绘了旋转目标检测方法的简要概述。
图6.旋转目标检测方法的简要总结。
A.旋转目标表示
旋转目标表示对于RSOD避免冗余背景和获得精确检测结果至关重要。最近的旋转目标表示方法主要可以概括为几类:五参数表示[107]–[116]、八参数表示[117]–[126]、角度分类表示[106], [127]、[129]、高斯分布表示[130]–[133]和其他[134]–[144]。
1)五参数:最流行的解决方案是用五参数方法 ( x , y , w , h , θ ) (x, y, w, h, θ) (x,y,w,h,θ)表示目标,这只是在HBB[107]-[115]上增加了一个额外的旋转角度参数θ。角度范围的定义在这种方法中起着至关重要的作用,其中导出了两种定义。一些研究[107]-[112]将θ定义为与x轴的锐角,并将角度范围限制为90°,如图7(a)所示。作为最具代表性的工作,Yang等人[107]遵循五参数方法来检测旋转目标,并设计了一个IoU感知损失函数来解决旋转角度的边界不连续性问题。另一组[113]-[116]将θ称为x轴和长边之间的角度,其范围为180°,如图7(b)所示。丁等人[114]通过五参数方法回归旋转角度,并将水平区域的特征转换为旋转区域,以方便旋转目标检测。
图7。旋转目标的五参数表示和八参数表示方法的可视化[106]。
2)八参数:与五参数方法不同,八参数方法[117]-[126]解决的是通过直接回归四个顶点 { ( a x , a y ) , ( b x , b y ) , ( c x , c y ) , ( d x , d y ) } \{(a_x, a_y), (b_x, b_y), (c_x, c_y), (d_x, d_y)\} {(ax,ay),(bx,by),(cx,cy),(dx,dy)}来表示旋转的目标,如图7(c)所示。Xia等[117]首先采用了用于旋转目标表示的八参数方法,该方法通过在训练过程中最小化每个顶点与地面真实坐标之间的差异来直接监督检测模型。然而,这些顶点的序列顺序对于八参数方法避免不稳定的训练是必不可少的。如图8所示,直观地从红色虚线箭头回归目标是一条更容易的路线,但实际过程遵循红色实线箭头,这造成了模型训练的困难。为此,钱等人[119],[121]提出了一种调制损失函数,该函数计算不同排序顺序下的损失,并选择最小情况进行学习,有效地提高了检测性能。
图8。五参数法和八参数法的边界不连续性挑战[119], [121]。
3)角度分类:为了从源头解决图8中描述的问题,许多研究人员[106], [127] ,[129]通过将角度预测问题转化为角度分类任务,绕过了回归的边界挑战。Yang等[106]提出了用于旋转目标检测的第一种角度分类方法,该方法将连续角度转换为离散角度,并用新颖的圆形平滑标签训练模型。然而,角度分类头[106]引入了附加参数并降低了检测器的效率。为了克服这一点,杨等人[129]用一个密集编码的标签改进了[106],确保了模型的准确性和效率。
4)高斯分布:虽然上述方法取得了有希望的进展,但它们没有考虑实际检测性能和优化度量之间的不对准。最近,一系列工作[130]–[133]旨在通过用高斯分布表示旋转目标来处理这一挑战,如图9所示。具体地,这些方法将旋转的目标转换为2D高斯分布 N ( μ , Σ ) N(μ, Σ) N(μ,Σ),如下所示:
图9。旋转目标的高斯分布表示方法的可视化[130]。
其中R表示旋转矩阵,Λ表示
特征值的对角矩阵。利用等式1中的高斯分布表示,两个旋转目标之间的IoU可以简化为两个分布之间的距离估计。此外,高斯分布表示舍弃了角边界的定义,有效地解决了角边界问题。杨等人[130]提出了一种新的高斯瓦瑟斯坦距离(GWD)度量来测量分布之间的距离,该度量通过有效地近似旋转IoU来实现显著的性能。基于此,Yang等人[131]引入了Kullback-Leibler散度(KLD)度量来增强其尺度不变性。
5)其他:一些研究人员通过其他方法解决旋转目标表示,如基于分割的[134]-[136]和基于关键点的[137]-[144]。基于分割的方法中具有代表性的是Mask OBB[134],它在每个水平建议上部署分割方法,以获得像素级目标区域,并产生最小外部矩形作为旋转的边界框。另一方面,魏等人[142]对旋转目标采用了基于关键点的表示,该表示定位目标中心并利用一对中线来表示整个目标。此外,Yang等[145]提出了第一个水平框标注监督的旋转目标检测器,该检测器采用两种不同视图的自监督学习来预测旋转目标的角度。
B.旋转不变特征学习
旋转不变特征指示特征在任何旋转变换下保持一致。因此,目标的旋转不变特征学习是解决旋转目标检测中任意方向问题的一个重要研究领域。为此,许多研究人员提出了一系列学习目标旋转不变性的方法[146]–[157],显著改善了RSI中的旋转目标检测。
Cheng等人[146]提出了第一个旋转不变目标检测器,通过使用rotationinsensitive特征来精确识别目标,该检测器强制目标的特征在不同旋转角度下保持一致。后来,程等人[148]、[149]采用旋转不变和fisher判别正则化器来鼓励检测器学习旋转不变和判别特征。在[150],[151]中,Wu等人分析了傅立叶域极坐标下目标的旋转不变性,并设计了空间频率通道特征提取模块来获得旋转不变性特征。考虑到轴对齐卷积特征和旋转目标之间的未对准,Han等人[156]提出了一种定向检测模块,该模块采用一种新的对齐卷积操作来学习方向信息。在[155]中,Han等人进一步设计了一个旋转等方差检测器来显式编码旋转等方差和旋转不变性。此外,一些研究人员[80], [157]用一系列预定义的旋转锚扩展了RPN,以应对地理空间目标的任意方向特征。
我们在表I中总结了里程碑旋转目标检测方法的检测性能。
表I 旋转目标检测方法在具有旋转注释的DOTAV1.0数据集上的检测性能。
4.弱目标检测
RSI中感兴趣的目标通常嵌入在具有复杂目标空间模式和大量背景噪声的复杂场景中。复杂的上下文和背景噪声严重损害了感兴趣目标的特征表示,导致对感兴趣目标的特征响应较弱。因此,许多现有的工作集中在改进感兴趣目标的特征表示上,这可以分为两个流:抑制背景噪声和挖掘相关的上下文信息。在图10中给出了弱目标检测方法的简要概述。
图10。弱目标检测方法的简要总结。
A.抑制背景噪声
这类方法旨在通过弱化背景区域的响应来加强特征图中目标区域的弱响应。主要可以分为两类:内隐学习和外显监督。
1)内隐学习:内隐学习方法在检测器中采用精心设计的模块,在训练阶段自适应地学习重要特征并抑制冗余特征,从而减少背景噪声干扰。
在机器学习中,降维可以有效地学习紧凑的特征表示,抑制不相关的特征。利用上述性质,叶等人[158]提出了一种特征过滤模块,通过连续的瓶颈层捕获低维特征图,以过滤背景噪声干扰。受人类视觉感知选择性聚焦的启发,注意机制被提出并得到了大量研究[159]-[161]。注意机制在网络学习阶段重新分配特征重要性,以增强重要特征并抑制冗余信息。因此,注意力机制也在RSOD中被广泛引入,以解决背景噪声干扰问题[57], [162]、[170]。在[162]中,Huang等人强调了补丁-补丁依赖性对RSOD的重要性,并设计了一种新的非局部感知金字塔注意(NP-Attention)。NP-Attention学习空间多尺度非局部依赖性和通道依赖性,以使检测器能够专注于目标区域而不是背景。考虑到SAR图像中陆地区域的强散射干扰,Sun等[163]提出了一种船舶注意力模块,以突出船舶的特征表示,减少来自陆地区域的虚警。此外,为RSOD设计的一系列注意力机制(例如,空间洗牌组增强注意力[165]、多尺度空间和通道注意力[166]、离散小波多尺度注意力[167]等。)已经证明了它们在抑制背景噪声方面的有效性。
2)显式监督:与隐式学习方法不同,显式监督方法采用辅助显著性监督信息来显式引导检测器突出前景区域并弱化背景。
李等人[171]采用区域对比度法获得显著图并构建显著特征通过融合多尺度特征图与显著图来构建金字塔。在[172]中,Lei等人用显著性检测方法[173]提取显著性图,并提出显著性重建网络。显著性重建网络利用显著性图作为像素级监督来指导检测器的训练,以加强特征图中的显著性区域。上述显著性检测方法通常是无监督的,并且生成的显著性图可能包含非目标区域,如图11(b)所示,从而向检测器提供不准确的引导。因此,后来的工作[107]、[134]、[174]-[180]将框级注释转化为目标级显著性引导信息(如图11(c)所示),以生成更准确的显著性监督。杨等人[107]设计了一个像素注意力网络,该网络采用目标级显著性监督来增强目标线索并削弱背景信息。在[175]中,Zhang等人提出了FoRDet,以更简洁的方式利用目标级显著性监督。具体地,所提出的FoRDet利用粗糙阶段中前景区域的预测(在框级注释下监督)来增强精细阶段中前景区域的特征表示。
图11.(a)输入图像。(b)显著性检测方法生成的显著性图[173]。(c)目标级显著性图。
B.挖掘相关上下文信息
上下文信息通常是指目标与周围环境或场景之间的空间和语义关系。该上下文信息可以为无法清楚区分的目标提供辅助特征表示。因此,挖掘上下文信息可以有效地解决RSOD中的弱特征响应问题。根据上下文信息的类别,现有方法主要分为局部和全局上下文信息挖掘。
1)局部上下文信息挖掘:局部上下文信息是指目标与其周围环境在视觉信息和空间分布上的相关性[147]、[181]-[187]。Zhang等人[181]通过将原始区域建议缩放为三种不同的大小来生成多个局部上下文区域,并提出了一种上下文双向增强模块来融合局部上下文特征和目标特征。上下文感知卷积神经网络(CA-CNN)[182]采用上下文RoI挖掘层来提取目标周围的上下文信息。首先通过合并围绕目标的一系列过滤建议来生成目标的上下文RoI,然后与目标RoI融合作为用于分类和回归的最终目标特征表示。在[183]中,Ma等人利用门控递归单元(GRU)将目标特征与局部上下文信息融合,从而获得目标的更具鉴别性的特征表示。图卷积网络(GCN)最近在目标-目标关系推理方面表现出了更好的性能。因此,田等人[184],[185]构建了空间和语义图来建模和学习目标之间的上下文关系。
2)全局上下文信息挖掘:全局上下文信息利用目标和场景之间的关联[188]-[195],例如,车辆通常位于道路上,船舶通常出现在海上。Chen等人[188]通过RoI-Align操作从全局图像特征中提取场景上下文信息,并将其与目标级RoI特征融合,以加强目标和场景之间的关系。Liu等人[192]设计了一种场景辅助检测头,在场景级监督下利用场景上下文信息。场景辅助检测头将预测出的场景向量嵌入到分类分支中,实现目标级特征与场景级上下文信息的融合。在[193]中,陶等人提出了一种场景上下文驱动的车辆检测方法。具体来说,引入预训练的场景分类器将每个图像块分类为三个场景类别,然后采用特定场景的车辆检测器来获得初步检测结果,最后利用场景上下文信息进一步优化检测结果。
考虑到局部和全局上下文信息的互补性,Zhang等人[196]提出了一种CAD-Net来挖掘局部和全局上下文信息。CAD-Net采用金字塔局部上下文网络来学习目标级局部上下文信息,并设计了全局上下文网络来提取场景级全局上下文信息。在[103]中,Teng等人提出了一种GLNet来收集从全局到局部的上下文信息,从而实现RSI的鲁棒和准确的检测器。此外,一些研究[197]–[199]还引入了ASPP[200]或RFB模块[54]来利用本地和全球上下文信息。
5.微小目标检测
RSI的典型地面采样距离(GSD)为1-3米,这意味着即使是大型目标(例如,飞机、船舶和储罐)也只能占据小于16 × 16像素。此外,即使在GSD为0.25 m的高分辨率RSI中,尺寸为 3 × 1.5 m 2 3×1.5m^2 3×1.5m2的车辆也仅覆盖72个像素(12 × 6)。RSI中微小目标的普遍存在进一步增加了RSOD的难度。目前关于微小目标检测的研究主要分为判别特征学习、基于超分辨率的方法和改进的检测度量。图12简要总结了微小目标检测方法。
图12。微小目标检测方法的简要总结。
A.判别特征学习
微小目标极小的尺度(小于16 × 16像素)使其表现出有限的外观信息,这对探测器学习微小目标的特征提出了严峻的挑战。为了解决上述问题,许多研究人员专注于提高微小目标的判别特征学习能力[201]–[208]。
由于微小目标主要存在于浅层特征中,缺乏高层语义信息[65],一些文献[201]–[203]引入自上而下的结构将高层语义信息融合到浅层特征中,以加强微小目标的语义信息。考虑到微小目标的有限外观信息,一些研究[204]–[208]通过自注意机制或扩张卷积建立微小目标与周围上下文信息之间的联系,以增强微小目标的特征辨别能力。值得注意的是,前面提到的一些关于多尺度特征学习和上下文信息挖掘的研究也证明了在微小目标检测中的显著有效性。
B.基于超分辨率的方法
极小的尺度是微小目标检测的关键问题,因此提高图像的分辨率是提高微小目标检测性能的直观解决方案。一些方法[209]-[212]采用超分辨率策略作为检测流水线的预处理步骤,以扩大输入图像的分辨率。例如,Rabbi等人[211]强调了边缘信息对于微小目标检测的重要性,并提出了一种边缘增强的超分辨率生成对抗网络(GAN)来生成具有详细边缘信息的视觉上令人愉悦的高分辨率RSI。吴等人[212]开发了一种微小目标的点到区域检测框架。点到区域框架首先通过关键点预测获得建议区域,然后采用多任务GAN对建议区域执行超分辨率并检测这些建议区域中的微小目标。然而,超分辨率生成的高分辨率图像给检测流水线带来了额外的计算复杂性。利用这个问题,[213]和[214]在特征级采用超分辨率策略来获取微小目标的判别特征表示,并有效地节省计算资源。
C.改进的微小目标检测度量
与前两种类型的方法不同,最近的高级工作[10]、[215]-[222]断言,当前流行的检测范例不适合微小目标检测,并且不可避免地阻碍微小目标检测性能。Pang等人。[215]认为现代探测器中过度的下采样操作导致特征图上微小目标的丢失,并提出了一种缩小和放大结构来放大特征图。在[218]中,Yan等人调整标签分配中的IoU阈值,增加微小目标的正分配锚点,有利于微小目标的学习。董等人[219]设计了Sig-NMS,以减少传统非最大抑制(NMS)中大型和中型目标对微小目标的抑制。
在[10]中,Xu等人指出IoU度量不适用于微小目标检测。如图13所示,IoU度量对轻微的位置偏移敏感。此外,基于IoU的标签分配存在严重的尺度不平衡问题,其中微小的目标往往被分配的阳性样本不足。为了解决这些问题,Xu等人[10]设计了一种归一化的Wasserstein距离(NWD)来代替IoU度量。NWD将微小目标建模为2D高斯分布,并利用高斯分布之间的归一化Wasserstein距离来表示微小目标之间的位置关系,详见[10]。与IoU度量相比,所提出的NWD度量对位置偏差是平滑的,并且具有尺度平衡的特性,如图13(b)所示。在[222],Xu等人进一步提出了用于微小目标检测的感受野距离(RFLA),并实现了最先进的性能。
图13。(a)IoU偏差曲线和(b)NWD偏差曲线之间的比较[10]。详见[10]。
6.有限监督下的目标检测
近年来,RSI中广泛使用的基于深度学习的检测器严重依赖于具有高质量注释的大规模数据集来实现最先进的性能。然而,收集大量标记良好的数据是相当昂贵和耗时的(例如,一个边界框注释将花费大约10秒),这导致了RSOD中数据受限或注释受限的场景[11]。这种缺乏足够的监督信息严重降低了检测性能。为了解决这个问题,研究人员在有限的监督下探索了RSOD中的各种任务。我们将以往的研究总结为三种主要类型:弱监督目标检测、半监督目标检测和少样本目标检测。图14提供有限监督下的目标检测方法综述。
图14。有限监督下的目标检测方法的简要总结。
A.弱监督目标检测
与全监督目标检测相比,弱监督目标检测(WSOD)只包含弱监督信息。形式上,WSOD由训练数据集 D t r a i n = { ( X i , y i ) } i = 1 I D_{train} = \{(X_i, y_i)\}^I_{i=1} Dtrain={(Xi,yi)}i=1I组成,其中 X i = { x 1 , . . . , x m i } X_i = \{x_1, ..., x_{m_i} \} Xi={ x1,...,xmi}是训练样本的集合,称为bag, m i m_i mi是bag中训练样本的总数, y i y_i yi是 X i X_i Xi的弱监督信息(例如,图像级标签[223]或点级标签[224])。将图像级监督有效地转移到目标级标签是WSOD的关键挑战[225]。
韩等人[226]引入深度玻尔兹曼机来学习目标的高级特征,并提出了一种基于贝叶斯原理的遥感WSOD弱监督学习框架。李等人[227]利用场景对之间的互信息来学习判别卷积权重,并采用多尺度类别激活图来定位地理空间目标。
在WSDDN[228]显著性能的激励下,提出了一系列遥感WSOD方法[229]、[241]。如图15所示,当前WSOD方法的范例通常由两个步骤组成,其首先构建多实例学习模型(MIL)以找到对图像分类任务有贡献的建议作为伪标签,然后利用它们来训练检测器。姚等人[229]引入了一种动态课程学习策略,其中检测器通过从易到难的训练过程逐步提高检测性能。冯等人[231]设计了一种渐进的上下文实例细化方法,该方法通过利用周围的上下文信息来抑制低质量的目标部分并突出整个目标。Wang等[233]将空间和外观关系图引入WSOD,传播高质量的标签信息以挖掘更多可能的目标。在[240]中,Feng等人认为现有的遥感WSOD方法忽略了地理空间目标的任意方向,导致了旋转敏感的目标探测器。为了解决这个问题,冯等人[240]提出了一种RINet,它通过采用旋转不变学习和多实例挖掘,为WSOD带来了旋转不变但多样的特征学习。
图15。最近WSOD方法的两步范例[229]–[241]。
我们在表II中总结了里程碑WSOD方法的性能,其中采用正确定位度量(CorLoc)[242]来评估定位性能。
B.半监督目标检测
半监督目标检测(SSOD)通常仅包含一小部分(不超过50%)的良好标记样本 D l a b e l e d = { ( x i , y i ) } i = 1 I l a b e l e d D_{labeled} = \{(x_i, y_i)\}^{I_{labeled}}_{i=1} Dlabeled={(xi,yi)}i=1Ilabele