0.论文摘要
摘要
遥感图像(RSIs)中的目标检测经常面临几个日益增加的挑战,包括目标尺度的巨大变化和不同范围的背景。现有方法试图通过大核卷积或扩张卷积来扩展主干的空间感受野来解决这些挑战。然而,前者通常会引入相当大的背景噪声,而后者会产生过于稀疏的特征表示。在本文中,我们引入了多核inception网络(PKINet)来应对上述挑战。PKINet采用无膨胀的多尺度卷积核来提取不同尺度的特征并捕获局部上下文。此外,还并行引入了上下文锚注意力(CAA)模块来捕获远程上下文信息。这两个组件协同工作,以提高PKINet在四个具有挑战性的遥感检测基准(即DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R)上的性能。
论文代码地址
论文地址
代码地址
1.研究背景
近年来,遥感图像(RSIs)中的目标检测受到了广泛关注[11, 56, 64]。这项任务致力于辨别RSI中特定目标的存在,并随后确定它们的类别和精确位置。与通常产生水平边界框的一般目标检测相反,遥感目标检测旨在产生与目标的取向精确对准的边界框。因此,许多先前的努力致力于开发各种定向边界框(OBB)检测器[10, 20, 31, 65, 67, 71]和提高OBB的角度预测精度[68, 70, 72–74]。然而,当涉及到改进用于目标检测的特征提取时,RSI的独特特性仍然相对未被充分探索。
RSI,包括航空和卫星图像,是典型的从鸟瞰的角度获得,提供了地球表面的高分辨率视图。因此,RSI中描绘的目标表现出广泛的尺度,从像足球场这样的广阔目标到像车辆这样相对较小的实体。此外,这些目标的准确识别不仅依赖于它们的外观,还依赖于它们的上下文信息,即它们所处的周围环境。为了解决目标尺度的大变化,一些方法采用显式数据增强技术[2, 54, 82]来提高特征对尺度变化的鲁棒性。有些求助于多尺度特征集成[37, 81]或金字塔特征层次[33, 61]来提取富含尺度信息的特征。然而,这些方法的局限性在于不同尺度的目标的感受野保持相同,从而不能为较大的目标提供足够的上下文信息。
最近,LSKNet[32]提出选择性地扩大较大目标的空间感受野,以捕捉更多的场景上下文信息。这是通过将大核卷积[12, 18, 38, 43]和扩张卷积合并到主干网络中来实现的。然而,值得注意的是,使用大核卷积可能会引入大量的背景噪声,这可能不利于小目标的准确检测。另一方面,扩张卷积虽然在扩大感受野方面有效,但可能会无意中忽略该野内的细粒度细节,潜在地导致过度稀疏的特征表示。
为了解决RSI中目标尺度的巨大变化和不同范围的环境所带来的挑战,在本文中,我们提出了一种强大的轻量级特征提取主干网络,称为多核inception网络(PKINet),用于遥感目标检测。与以往依靠大核或扩张卷积来扩展感受野的方法不同,PKINet并行排列多个不同大小的深度方向卷积核而不进行扩张,并提取跨越不同感受野的密集纹理特征。这些纹理特征沿着通道维度自适应地融合,使得能够收集局部上下文信息。为了进一步包含远程上下文信息,我们引入了上下文锚注意力(CAA)机制,该机制利用全局平均池化和1D条带卷积来捕获远处像素之间的关系,并增强中心区域内的特征。这两个组件协同工作,有助于提取具有局部和全局上下文信息的自适应特征,从而提高遥感目标检测的性能。
据我们所知,PKINet代表了探索inception式卷积和全局上下文注意在遥感目标检测中的应用的开创性努力,旨在有效应对目标规模和上下文多样性的巨大变化所带来的挑战。在广泛使用的遥感基准DOTA-v1.0[64]、DOTA-v1.5[64]、HRSC2016[41]和DIOR-R[3]上进行的广泛实验证明了我们方法的有效性。除了其出色的特征提取能力之外,由于战略性地使用了深度和1D卷积,与以前的方法相比,我们的模型是轻量级的。
2.相关工作
遥感目标检测面临的挑战主要源于具有任意方向和巨大尺度变化的目标[3, 11, 40, 56, 64, 75]。大多数先前的方法都集中在定向边界框(OBB)检测上。尽管如此,一个新兴的趋势是设计适合遥感图像(RSIs)特征的有效特征提取主干。
用于遥感目标检测的OBB
为了解决RSI中目标任意方向的挑战,一个研究方向集中于开发专门的OBB探测器。这包括将特征细化技术引入检测器颈部[69, 71],提取旋转的感兴趣区域(RoI)[10, 65],,为OBB设计特定的检测头[21, 26, 48],等等。尽管这些方法比一般水平边界框(HBB)检测器有所改进,但由于它们通过用附加角度参数增强水平目标表示而获得的相对不灵活的目标表示,这些方法通常遭受诸如边界不连续性的问题。为了缓解上述问题,另一条研究线致力于开发用于检测OBB的新目标表示[15, 31, 62, 67, 70, 76]。例如,Xu等人[67]提出通过在经典HBB表示中添加四个滑动偏移变量来描述多方向目标。Li等[31]使用一组点来表征定向目标,以实现更准确的定向估计。其他一些[4, 27, 72, 73]利用高斯分布来模拟目标检测的OBB,并设计新的损失函数 [51] 来指导学习过程。
尽管这些方法在解决与任意取向相关的挑战方面是有希望的,但是它们通常依赖于用于特征提取的标准主干,这通常忽略了对于目标检测至关重要的RSI的独特特征,例如,大的目标比例变化和不同的上下文信息。相比之下,我们提出了一个特征提取主干来应对大目标尺度变化带来的挑战。
遥感目标检测中的特征提取
为了更好地处理独特的挑战,如RSI中的大目标尺度变化,某些方法强调通过数据增强[2, 54, 82]、多尺度特征集成[39, 61, 81, 83]、特征金字塔网络(FPN)增强[16, 25, 35, 80]或多尺度锚生成[19, 24, 52]等方法提取多尺度特征。最近,在专门用于遥感目标检测的特征提取主干的设计方面有了值得注意的发展。一些[21, 50]专注于提取适用于具有等效感受野的不同方向的目标的特征。一些[32]使用大核[12,38,43]扩大了较大目标的空间感受野,这不可避免地会为较小目标引入背景噪声。一些[8, 17, 79]采用多尺度卷积核来应对各个领域的挑战,但遥感检测方面的研究仍然很少。
与[32]类似,我们提出了一种新的特征提取主干PKINet,以解决RSI中目标规模的巨大变化和不同上下文所带来的挑战。这两种方法有两个关键区别。
首先,PKINet不是依靠大核或扩张卷积来扩展感受野,而是利用没有扩张的inception式深度卷积来提取不同感受野的多尺度纹理特征。其次,我们的方法结合了上下文锚注意力(CAA)机制来捕捉远程上下文信息。这两个组件协同工作,有助于提取具有局部和全局上下文信息的自适应特征,从而提高遥感目标检测的性能。
3.主要工作&核心思想
如图2(a)所示,我们的PKINet是一个类似于VGG[55]和ResNet[22]的特征提取主干,由四个阶段组成。每个级(3.1)意味着一个跨级部分(CSP)结构[60],其中级输入被分割并馈送到两个路径中。一种路径是简单的前馈网络(FFN)。另一条路径由PKI块序列组成,每个PKI块包含一个PKI模块(§3.2)和一个CAA模块(§3.3)。两个路径的输出被级联以产生级的输出。PKINet可以与各种定向目标检测器(如定向RCNN[65])结合,以产生RSI的最终目标检测结果。
3.1 PKI阶段
PKINet中有四个顺序排列的阶段。阶段 l l l的输入和输出分别为 F l − 1 ∈ R C l − 1 × H l − 1 × W l − 1 \mathbf{F}_{l−1} ∈ \mathbb{R}^{C_{l−1}×H_{l−1}×W_{l−1}} Fl−1∈RCl−1×Hl−1×Wl−1和 F l ∈ R C l × H l × W l \mathbf{F}_{l} ∈ \mathbb{R}^{C_{l}×H_{l}×W_{l}} Fl∈RCl×Hl×Wl。 l l l级的结构如图2(b)所示,这意味着跨级部分(CSP)结构[60]。具体地,inception处理后的级输入 F l − 1 \mathbf{F}_{l−1} Fl−1沿着通道尺寸被分成两半,并被馈送到两个路径中:
其中DS表示下采样操作。一条路径是简单前馈网络(FFN),它接收 X l − 1 ( 1 ) ∈ R 1 2 C l × H l × W l \mathbf{X}^{(1)}_{l−1}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l} Xl−1(1)∈R21Cl×Hl×Wl,然后输出 X l ( 1 ) ∈ R 1 2 C l × H l × W l \mathbf{X}^{(1)}_{l}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l} Xl(1)∈R21Cl×Hl×Wl。另一条路径由 N l N_l Nl PKI块序列组成,其处理 X l − 1 ( 2 ) ∈ R 1 2 C l × H l × W l \mathbf{X}^{(2)}_{l-1}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l} Xl−1(2)∈R21Cl×Hl×Wl并产生 X l ( 2 ) ∈ R 1 2 C l × H l × W l \mathbf{X}^{(2)}_{l}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l} Xl(2)∈R2