【摘要】
由于特征表示不足、背景混淆等问题,使得遥感小目标检测任务十分艰巨。特别是,当算法将部署到平台上进行实时处理时,这需要在有限的计算资源下对精度和速度进行广泛的优化。为了解决这些问题,本文提出了一种高效的特征增强、融合和上下文感知YOLO (FFCA-YOLO)检测器。FFCA-YOLO包括三个创新的轻量级即插即用模块:特征增强模块(FEM)、特征融合模块(FFM)和空间上下文感知模块(SCAM)。这三个模块分别提高了网络的局部感知能力、多尺度特征融合能力和跨通道、跨空间的全局关联能力,同时尽量避免增加复杂度。从而增强小目标的弱特征表征,抑制易混淆的背景。利用VEDAI和AI-TOD两个公共遥感小目标检测数据集和USOD一个自建数据集验证了FFCA-YOLO的有效性。FFCA-YOLO的准确率达到0.748、0.617和0.909(以mAP50计算),超过了几个基准模型和最先进的方法。同时,在不同的模拟退化条件下验证了FFCA-YOLO的鲁棒性。此外,为了在保证效率的同时进一步减少计算资源消耗,基于部分卷积(PConv)对FFCA-YOLO的主干和颈部进行重构,优化了精简版FFCA-YOLO (L-FFCA-YOLO)。与FFCA-YOLO相比,L-FFCA-YOLO速度更快,参数规模更小,计算能力要求更低,精度损失小。源代码可从https://github.com/yemu1138178251/FFCA-YOLO获得。
1 介绍
近年来,由于光学遥感技术的快速发展[1]、[2]、[3]、[4]、[5]、[6],交通监控、搜索救援、军事等领域对小目标检测的研究取得了显著的增长。
遥感图像通常具有较大的视场,非常适合于广域监测。然而,由于感兴趣对象的分辨率相对较低,质量较差,通常具有尺寸小(小于32 × 32像素[7],[57]),特征模糊,对比度低,信息不足等特点,给检测带来额外的困难[8],[9]。同时,遥感系统面临着平台运动、大气、各种复杂成像场景等可控观测条件较少、成像链干扰较多的问题。所有这些因素都会导致物体和背景的混叠,使小物体无法区分。
另一方面,随着相机频带和分辨率的不断增加,机载成像过程中会产生大量数据[10]。例如,WorldView-4每天采集68万km2的数据[11],带来了海量的下游数据。传统的数据下行后的地面处理模式面临严峻挑战,难以满足军事侦察、应急救援等高时效性应用的要求。机载实时处理可以显著缓解成像数据的传输压力,缩短从信息获取到战略决策的延迟,成为解决这一问题的潜在途径之一。欧洲航天局(ESA)等权威机构已经将星上处理技术作为前瞻性的重点研究方向之一[12]。遗憾的是,由于对车载资源(如功率、重量、体积)的严格限制,对处理算法的可靠性、速度、规模等性能提出了更高的要求。
总的来说,遥感应用中小目标检测面临的主要挑战可以归结为三点:特征表示不足、背景混乱以及在有限硬件条件下速度和精度的优化。
在这项研究中,我们的动机是设计一种高精度的小型目标探测器,未来有可能应用于机载实时处理。缓解特征表示不足和背景混淆问题的关键在于特征增强和融合。在特征增强方面,充分利用局部和全局上下文信息[13],[14],[15]可以有效增强对小物体的网络感知。
提出了特征增强模块(FEM)和空间上下文感知模块(SCAM),分别丰富局部和全局上下文特征,特征增强模块通过多分支扩张卷积增大主干网络的感受野。SCAM通过构建全局上下文关系来考虑小对象和全局区域之间的关联。
在特征融合方面,提出了改进特征融合策略的特征融合模块(FFM),可以在不增加计算复杂度的前提下,根据信道信息对不同的特征映射进行重加权。将这三个模块添加到YOLO中,得到一个新的模型:特征增强、融合和上下文感知YOLO (FFCA-YOLO)。
最后,为了在保证效率的同时进一步降低计算资源消耗,通过基于部分卷积(PConv)重构FFCA-YOLO的主干和颈部,对精简版FFCA-YOLO (L-FFCA-YOLO)进行了优化。
本文的主要贡献如下。
1)针对遥感应用,设计了小型目标高效探测器(FFCA-YOLO)及其精简版L-FFCA-YOLO。与几种基准模型和SOTA方法相比,FFCA-YOLO在小型目标检测任务中具有先进的性能,具有未来机载实时应用的潜力。
2)提出了三个创新的轻量级即插即用模块:FEM、FFM和SCAM。这三个模块分别提高了网络的局部感知能力、多尺度特征融合能力和跨通道、跨空间的全局关联能力。它们可以作为通用模块插入到任何检测网络中,以增强小目标的弱特征表示和抑制易混淆的背景。
3)基于航空遥感影像构建新的小目标数据集USOD,该数据集的小目标(小于32 × 32像素)比例超过99.9%,并且在低照度和阴影遮挡条件下有很多实例。此外,USOD具有图像模糊、高斯噪声、条纹噪声、雾等不同模拟退化条件下的多个测试集,可作为遥感小目标检测的基准数据集。
本文的其余部分组织如下:在第二节介绍了小目标检测的相关工作之后,第三节阐述了所提出的FFCA-YOLO和L-FFCA-YOLO架构。第四节简要介绍了实验细节。并将该方法与几种基准模型和SOTA方法的性能进行了比较。本节还验证了FFCA-YOLO的鲁棒性和轻量级性能。第五部分对全文进行了总结,并指出了遥感小目标检测的未来发展方向。
2 相关的工作
本节简要回顾了与本研究相关的文献,包括YOLO在遥感检测中的应用、小目标特征提取方法、全局上下文特征表示、网络轻量级框架等。
A. YOLO在遥感中的应用
深度学习的发展使目标探测器能够通过端到端学习框架自适应提取图像特征并定位目标。目前,检测方法可分为两类:两级检测器[16]、[17]和一级检测器[18]、[19]、[20]、[21]。与两级检测器相比,一级检测器具有更快的计算速度和更低的精度损失,具有更好的星载应用潜力。YOLO系列算法[18]、[19]、[20]是典型的单阶段目标检测算法,对于小目标具有较好的性能。目前已经出现了一些用于遥感目标检测的改进YOLO算法,如TPH-YOLO[22]、FE-YOLO[23]、CA-YOLO[24]。
TPH-YOLO[22]将变压器编码器块集成到主干中,获得丰富的全局上下文信息,提高了对象特征表示的质量。FE-YOLO[23]使用可变形卷积对YOLO颈部的高低特征映射进行特征融合,目的是消除自顶向下连接对对象造成的语义间隙的影响。这两种方法都有良好的效果,但参数数量急剧增加。
CA-YOLO[24]将坐标关注模块嵌入到浅层特征网络提取中,通过建立像素间的远程依赖关系来抑制冗余背景,增强对象的特征表征。综上所述,YOLO具有可扩展性和高效性的优势,适合应用于遥感任务。因此,我们选择YOLO作为基本框架,并添加专门设计的小目标特征表示和背景抑制模块。
B.小目标检测的特征增强与融合方法
基于深度学习的目标检测方法依靠主干获得高维特征。然而,在遥感图像中,提取的小物体特征可能只占用输出特征图上的一个像素。为了更有效地表示特征,需要使用多尺度特征。受源自手工设计特征的金字塔结构的启发,Lin等人[25]提出了特征金字塔网络(FPN),它产生了将具有高分辨率的低级特征与具有低分辨率的高级特征聚合在一起的能力。此后,PANet[26]、NAS-FPN[27]、ASFF[28]、BiFPN[29]等相继被提出,并在目标检测任务中取得了较好的效果。Guo等[30]引入AugFPN来解决特征映射中细节信息和语义信息不一致的问题。在特征融合阶段采用一次性监督的方法,缩小了信息差距。Liu等[31]提出了一种用于检测小型车辆目标的高分辨率目标检测网络(HRDNet),该网络使用多深度图像金字塔结合多尺度FPN来加深特征。这些方法表明,加强多尺度特征融合的质量可以在一定程度上有效提高小目标的检测性能。此外,融合前的特征增强可以进一步改善网络的语义表示。Cheng等[32]利用双注意机制在融合前对特征进行增强,使网络关注对象的鲜明特征。Zhang和Shen[33]提出的特征增强模块与Cheng的相似,同样是利用空间维度和通道维度的注意机制来增强特征。除了注意机制外,通过多分支卷积[8]和变压器编码器[34][35]扩展感受野也是两种常用的特征增强方法。
为了获得更大的接受场,本文设计了一种新的轻量级特征增强方法来获得更丰富的局部上下文信息,该方法包括一个包含标准卷积和扩张卷积的多分支结构。此外,通过改进多尺度融合策略,提出了一种几乎不需要附加参数的FFM。
C.全局上下文特征表示
经过特征增强和特征融合方法的改进,小物体的特征表示得到了一定程度的增强。在此阶段对小目标和背景之间的全局关系进行建模比在主干阶段更有效。
根据[36]、[37]、[38]的研究结果,获取全局接受野和上下文信息对于小目标定位非常重要。非局部神经网络(Nonlocal neural network, NLNet)[13]通过计算空间像素之间的两两相关性来聚合全局上下文。之后,GCNet[14]和SCP[38]对查询和键的乘法进行了简化,解决了NLNet计算量过大的问题。SCP在GCNet中添加额外的路径来学习每个像素的信息。这条额外的路径使用一个1 × 1的卷积来聚合不同通道之间的空间信息,但仍然可能带来一些无用的背景特征。
在这些方法的基础上,考虑[39]和[40]的思想,提出了一种新的SCAM模块。SCAM使用全局平均池化(GAP)和全局最大池化(GMP)来指导像素学习空间和通道之间的关系。因此,SCAM可以实现跨通道和空间的上下文特征交互。
D.轻量级模型框架
轻量级是衡量检测器性能的重要指标,特别是针对未来的车载部署,这需要在有限的计算资源下优化精度和速度。有两种常用的方法可以使网络变得轻量级。第一种是以剪枝为代表的模型压缩[41]、[42]、[43]、[44]。剪枝的实质是通过设计滤波算法,将小于阈值的冗余参数删除。任何模型都可以被修剪以减少参数的数量。
另一种方法是使用轻量级卷积网络来优化模型结构。它的思想在于为网络设计更有效的计算方法。MobileNet[45]、ShuffleNet[46]和GhostNet[47]使用深度卷积(DWConv)和/或群卷积来提取空间特征。DWConv可以有效地减少参数计数和FLOPs。几种用于遥感目标检测的网络结构[48]、[49]、[50]在上述方法的基础上实现了轻量化设计。Chen等[51]证明了DWConv的低FLOPs主要是由于操作人员频繁地访问存储器。因此,提出了PConv算法,通过减少冗余计算和内存访问来更有效地提取空间特征。基于PConv的思想,通过对IV-E节中的网络进行重构,提出了一种简化版的FFCA-YOLO,命名为L-FFCA-YOLO,速度更快,准确率略低。
3 所提方法
a .概述
选择YOLOv5作为我们的基准框架,因为与最新的YOLOv8相比,它的参数更少,在小目标检测任务中可以保持一定的精度。FFCA-YOLO的总体架构如图1所示。首先,FFCA-YOLO只使用4个卷积下采样操作作为特征提取的主干,这与原来的YOLOv5不同。其次,在YOLOv5的颈部增加了三个专门设计的模块:提出了一个轻量级的FEM,以提高网络的局部区域感知;提出FFM是为了提高多尺度特征融合的能力;SCAM旨在提高跨通道和空间的全球关联能力。最后,在精度损失较小的情况下,基于PConv重构FFCA-YOLO,得到精简版L-FFCAYOLO。它们的详细说明见第三- b - iii - e节。
图1 整体结构
B.特征增强模块(FEM)
由于遥感图像的复杂性,在小目标检测任务中容易出现具有相似特征的虚警。但是,骨干网络的提取能力有限。这一阶段提取的特征包含较少的语义信息和狭窄的接受域,难以区分小物体和背景。
因此,本文提出的FEM法考虑从两个角度增强小目标的特征。从增加特征丰富度的角度出发,采用多分支卷积结构提取多个判别性语义信息。从扩大感受野的角度出发,应用扩张卷积获得更丰富的局部上下文信息。FEM整体结构如图2所示,其设计灵感来自RFB-s[52]。不同之处在于FEM法只有两个分支具有扩张卷积。每个分支对输入特征映射进行1 × 1的卷积运算,初步调整后续处理的通道数。第一个分支是残差结构,残差结构形成等效映射,保留小目标的关键特征信息。其他三个分支执行级联标准卷积操作,其核大小分别为1 × 3、3 × 1和3 × 3。在中间两个分支上增加了额外的亚属性卷积层,使提取的特征图能够保留更多的上下文信息。
FEM法的数学表达式为:
其中f 1×1 conv、f 1×3 conv、f 3×1 conv和f 3×3 conv分别表示核大小为1×1、1×3、3×1和3×3的标准卷积操作。F 3×3 diconv表示膨胀率为5的扩张卷积运算。Cat(·)是特征映射拼接操作。⊕表示特征映射的元素相加操作。F是输入特征映射。W1、W2、W3表示前三个分支经过标准卷积和扩张卷积后的输出特征图。Y为FEM法的输出特征图。
与RFB-s相比,FEM具有更轻的结构,通过多分支属性卷积使模型能够学习到更丰富的局部上下文特征,提高了对小对象的特征表示能力。
图 2 FEM网络结构图
C.特征融合模块(FFM)
高级和低级特征映射包含不同的语义信息。多尺度特征图的特征聚合可以增强小目标的语义表示。所提出的FFM采用基于BiFPN的颈部结构。与BiFPN不同,FFM改进了名为CRC的重权策略,并调整了原始的BiFPN以适应三个检测头。FFM的结构如图3所示。FFM的输入由FEM法处理的特征图X2(160 × 160)、X3(80 × 80)和SPPF法处理的高级特征图X4(40 × 40)。
FFM自上而下的策略如下。首先对X4使用CSPBlock得到X ' 4,然后对X ' 4进行上采样得到与X3相同尺度的feature map,并使用CRC将它们融合在一起。CSPBlock对融合后的特征图进行处理,得到X ' 3。在X ' 3上重复上述操作以创建新的特征映射X ' 2。X ' 2、X ' 3、X ' 4实现了语义信息由深向浅的流动。
从下到上的过程与从上到下的过程类似,主要区别在于特征映射使用步长为2的卷积进行下采样。X ' '3是通过X3、X ' 3、X ' 2的CRC得到的。这种操作可以融合更多的特征,而不会增加太多成本。将X’’2、X’‘3、X’’4作为FFM的输出结果发送给SCAM进行上下文信息提取。FFM的计算过程可表示为:
其中f2↑up表示上采样操作。CBS表示3 × 3卷积,包括批处理归一化和SiLU。
与BiFPN相比,FFM改进了涉及重加权通道的多尺度特征映射的融合策略。BiFPN[29]的融合策略是特征映射之间的融合,导致不同的通道具有相同的权值。为了加强多尺度特征对小目标的表征,并充分利用不同通道的特征,本文提出的CRC对特征映射的通道进行了重新加权,如图3下半部分所示。
我们设计了三种重新加权渠道的策略。第一种策略使用类似于SENet[39]或ECANet[53]的通道关注机制,如公式(8)所示重新加权通道。该策略是可行的,但显著增加了计算成本和参数计数。第二种策略首先将特征映射连接起来,然后将归一化可训练权值与通道总数的参数数相乘,如式(9)所示。第三种策略进一步考虑不同特征映射之间的语义差距,首先对每个特征映射内的通道进行重新加权,然后对不同的特征映射进行重新加权,如式(10)所示。
其中Attention(·)表示通道注意机制,如SENet或ECANet。ωi表示第i个特征映射中的可训练权值。ωj表示第j个通道的可训练权值。mi是第i个特征映射中的通道数。m表示连接后的通道总数。ε设置为0.0001以避免数值不稳定。根据章节IV-D的烧蚀实验结果,三种策略均能提高性能,但第二种策略与第三种策略差异不显著。因此,我们选择FFM中的第二种策略进行特征重加权。FFM的结构及其信道重加权策略优化了小目标多尺度语义信息的融合过程,为后续的全局上下文建模提供了更有效的特征映射。
D.空间上下文感知模块(SCAM)
在FEM和FFM之后,特征图已经考虑了局部上下文信息,并且能够很好地表示小目标特征。在此阶段对小目标和背景之间的全局关系进行建模比在主干阶段更有效。利用全局上下文信息来表示像素之间的跨空间关系,可以抑制无用背景,增强目标和背景的区分能力。受GCNet[14]和SCP[38]的启发,SCAM由三个分支组成。第一个分支使用GAP和GMP整合全局信息。第二个分支使用1 × 1卷积生成特征映射的线性变换结果,该特征映射在图4中称为value[54]。
第三个分支使用1 × 1卷积来简化查询和键的倍数。这个卷积在图4中称为QK。随后,将第一分支和第三分支分别与第二分支矩阵相乘。得到的两个分支分别表示跨通道和空间的上下文信息。最后,利用广播Hadamard积在这两个分支上得到了SCAM的输出。SCAM的结构如图4所示。
在每一层中,像素空间上下文可以表示为:
式中,P j i和Q j i分别表示第i级特征映射中第j个像素的输入和输出。Ni表示像素总数。ωqk和ωv是用于投影特征映射的线性变换矩阵,它们通过1 × 1卷积进行简化。avg(·)和max(·)分别执行GAP和GMP。GAP和GMP可以引导feature map选择具有重要信息的通道,使SCAM能够了解通道尺寸的上下文信息。