【遥感目标检测论文阅读(一)】Large Selective Kernel Network for Remote Sensing Object Detection

Large Selective Kernel Network for Remote Sensing Object Detection

南开大学   ICCV2023

一种新的旋转目标检测算法,通过一系列Depth-wise 卷积核和空间选择机制来动态调整目标的感受野。

论文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Large_Selective_Kernel_Network_for_Remote_Sensing_Object_Detection_ICCV_2023_paper.pdf

代码链接:https://github.com/zcablii/LSKNet

一、论文概述

近年来遥感目标检测忽略了遥感场景中独特的有用先验知识,微小的遥感目标可能会因为没有参考足够远的背景导致错误的检查,而且不同尺寸的目标需要的上下文信息可能会有所不同。

提出轻量级大选择核网络(LSKNet),可以动态调整其感受野范围,更好地模拟遥感场景中各种物体的测距环境,提供所需上下文信息。

二、论文动机

如图1所示,航空图像通常以高分辨率从鸟瞰拍摄,大多数物体可能很小,仅凭外观很难识别。识别这些物体依赖于它们的环境,因为周围的环境可以提供关于它们的形状、方向和其他特征的有价值的线索。(也就是引入目标的上下文信息,以前也有很多工作通过目标与目标之前的关系、目标与环境之间的关系为小目标检测补充可用特征。)

作者提出了两个对于微小遥感目标检测有帮助的重要先验:

(1)准确的检测通常需要广泛的上下文信息。目标较小,可用特征有限,使用有限的背景特征难以对目标正确的分类。

(2)不同目标所需的上下文信息非常不同。如图2所示,目标的大小及场景的复杂程度决定了目标是否需要更多的远距离依赖信息,即帮助目标分类和检测的上下文信息。

 为了使用有用的上下文信息帮助遥感目标检测,作者提出了一种新的轻量级检测骨干称为大选择内核网络(LSKNet)。该方法实现了动态调整特征提取主干的感受野,以更有效地处理被检测目标所需要的上下文信息。

主要是依靠一种空间选择机制来实现的,该机制有效地将一系列 large depthwise kernels 处理的特征进行自适应动态加权并空间融合。这些卷积核的权重是根据输入动态确定的,允许模型自适应地使用不同的大卷积核,实现根据需要调整空间中每个目标的感受野。

三、方法

如图3所示,展示了现有方法与LSK的不同之处及优势:

SKNet:引入了具有不同卷积核的多个分支,并沿着通道维度选择性地组合它们。

ResNeSt:通过将输入特征映射划分为几个组来扩展SKNet的思想。

SCNet:利用分支注意力来获取更丰富的信息,利用空间注意力来提高定位能力。

而LSK与其他方法有两个不同点:(一)提出的选择机制依赖于通过分解的大核序列;(二)在空间维度上自适应地聚合大核的信息,可以更好的模拟图像空间中不同目标的空间方差,实现为每个目标自适应的添加上下文信息。

 

如图4所示,LSKNet主干网的整体架构简单地建立在重复的LSKNet块上。每个LSKNet块由两个残差子块组成:LK Selection和FFN。LK Selection块如图5展示,可以根据需要动态的调整网络的感受野。表1展示了LSKNet不同变体的详细配置。

Large Kernel Convolutions

作者提出构造一个更大的核卷积,通过显式地将其分解为具有大核和扩张率的深度卷积序列。使用增大的核大小和扩张速率保证了感受野增长的足够快。通过设置扩张率的上限,以保证膨胀卷积不会在特征映射之间引入间隙。如表2所示,实现将大核分解为多个具有不同扩张率的深度卷积。以上方式具有以下优势:(1)它显式地产生具有各种大感受野的多个特征图,这使得以后的卷积核选择更容易。(2)顺序分解比简单地应用一个更大的核更有效,即相同感受野所需的参数大大减少。

步骤一:

如图5左边部分所示,

(一)对于输入X以及一个分解的核序列,赋值为U_0 = X,使用一系列深度卷积获取U_{i+1} = F_i^{dw}(U_i),其中F_i^{dw}(\cdot )是指卷积核大小为k_i,扩张率为d_i的深度卷积。

(二)假设有N个分解的核,然后再每个核经过一个1×1卷积层F^{1 \times 1}(\cdot )进一步处理得到\widetilde{U_{i}} = F^{1 \times 1}(U_i), for i in [1, N],图中N=2。最后将得到的全部\widetilde{U_{i}}进行通道融合。

Spatial Kernel Selection

为了使得网络关注最相关的空间上下文区域,以增强目标的检测能力。作者使用空间选择机制从不同尺度的大卷积核中对特征映射\widetilde{U_{i}}进行空间选择。

步骤二:

如图5中间即右边部分所示,

(一)对\widetilde{U_{i}}使用通道平均池化和最大值池化提取空间关系,分别得到SA_{avg}SA_{max}

(二)为了允许SA_{avg}SA_{max}之间能够信息交互,作者将空间池化特征(即通道平均池化和最大值池化提)进行连接,并使用卷积层f^{2\rightarrow N}(\cdot )将池化特征(2个通道)转换为N个空间注意图(分别对应拆分的N个深度卷积得到的特征图),得到\widehat{SA} = F^{2 \rightarrow N}([SA_{avg}; SA_{max}])

(三)对于每个空间注意图,SA_i,应用sigmoid激活函数获得每个分解大核的单独空间选择掩码 \widetilde{SA_{i}}。(转化为概率形式的掩码)

(四)对分解后的大核序列的特征映射\widetilde{U_{i}},进行相应的空间选择蒙版(\widetilde{SA_{i}})加权,再通过卷积层F(\cdot )进行融合,得到注意力特征图S = F( \sum_{i=1}^{N} (\widetilde{SA_{i}} \cdot \widetilde{U_{i}}))

(五)最后将输入X与注意力特征图S逐元素相乘得到Y。

四、实验

对于LSK模块来说,决定要分解的核的数量是一个关键的选择。表3可知,将大核分解为两个深度核是该模块的最优解决方案,可以在速度和精度之间取得良好的平衡。表4显示,过小或过大的感受野都会阻碍LSKNet的性能,并且确定约为23的感受野大小是最有效的。对于遥感目标检测任务,空间选择方法比通道关注更有效,表明空间信息更为关键。

表5所示,LSK模块的空间选择组件中同时使用最大池化和平均池化可以在不牺牲推理速度的情况下提供最佳性能。

表6展示了以ResNet-18作为骨干网的模型在DOTA-v1.0数据集上的性能比较。

表7展示了使用大核核选择性注意力的模型在DOTA-v1.0数据集上的性能比较。

表8展示了在HRSC2016数据集上与最新方法的对比结果。

 表9展示了在DOTA-v1.0数据集上与最新方法的对比结果。

 表10展示了在FAIR1M-v1.0数据集上与最新方法的对比结果。

五、分析

如图6所示,LSKNet与ResNet-50相比可以捕获更多与检测到的目标相关的上下文信息,从而在各种困难情况下获得更好的性能。

图7展示了不同对象的相对上下文范围。研究每个对象类别的感受野的相对范围,作者将R_c定义为类别c的期望选择性射频面积与GT边界框面积的比值。图7展示了DOTA-V1.0数据集中每个类别的R_c取值,展示了不同类别对上下文信息的需求不同,对于难以区分的目标则需要更多的上下文信息。

其中I_c是只包含对象类别c的图像的数量。A_i为输入图像i的所有LSK块的空间选择激活之和,其中D为LSKNet中的块数,N为LSK模块中分解的大核数。B_i为所有定向对象边界框GT的总像素面积。 

图8展示了核选择的结果,展示了LSKNet每个块中大核和小核的参与比例∆Ac(即大核选择-小核选择),结果表明在更复杂的目标场景中大核的参与率更高,即所需的上下文信息更多。

而且LSKNet具有在浅层中使用较大的核,而在较高层中使用较小的核的特点。表明网络倾向于快速地集中于从低层次的大感受野特征图中捕获信息,以便更高层次的语义可以包含足够的感受野,以便更好地进行区分。(并且浅层中包含的细节信息更多,更有利于小目标的检测)

 

 图9展示了DOTA-v1.0中更多对象类别的空间激活图示例(图中亮的部分是被激活区域),验证了所提出机制的有效性。

  • 21
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值