AMFLW-YOLO:A Lightweight Network for Remote Sensing Image Detection Based on Attention Mechanism and Multiscale Feature Fusion
AMFLW-YOLO:基于注意力机制与多尺度特征融合的轻量化遥感图像检测网络
0.论文摘要
摘要
摘要—遥感图像中目标尺度变化大且多样,存在大量分布密集的小目标及高复杂度的图像背景。基于深度学习的物体检测算法网络参数量与计算量庞大,难以在性能固定且计算资源有限的平台上部署。本文提出一种轻量级遥感目标检测模型AMFLW-YOLO(注意力与多尺度特征融合轻量YOLO)。该模型在骨干网络中采用深度可分离卷积、逆残差结构和线性瓶颈结构替代标准卷积层,以降低参数量;在特征融合网络引入坐标注意力机制(CA),同步捕获跨通道的方向与位置感知信息,提升网络精度;采用双向特征金字塔结构(BiFPN)强化特征提取,通过可学习权重衡量不同输入特征的重要性,结合多尺度特征融合提升检测效果。实验结果表明,该算法在效率与精度方面均取得满意效果,在检测精度和模型轻量化方面具有优势。
关键词—注意力机制,特征融合,轻量网络,目标检测,遥感图像
1.引言
近年来,随着光学遥感技术与卫星通信技术的快速发展,光学遥感图像的质量与数量均得到显著提升[1]。遥感图像目标检测是该领域的一项基础性难题,其任务是对遥感图像中的有效目标进行检测与标定,在国防军事、城市规划、交通管理、资源勘探等领域具有重要作用。光学遥感图像中的目标检测任务与自然场景图像中的目标检测任务具有相似性,但由于光学遥感图像在拍摄角度、目标分布和成像范围等方面与自然场景图像存在差异,这给光学遥感图像的目标检测任务带来了更多困难与挑战[2]。
传统目标检测算法通常时间复杂度较高,且由于采用人工设计特征导致泛化能力不强,因此无法准确识别遥感图像中待检测目标的类别和位置信息。近年来随着人工智能技术和计算机的快速发展,基于深度学习尤其是卷积神经网络(CNN)的目标检测算法受到广泛研究关注。得益于CNN模型强大的特征提取能力[3],研究者们开发了大量基于CNN的光学遥感图像分类与目标检测算法,这类算法可在GPU上进行训练并自主学习,从而获得鲁棒性强的目标特征。与传统目标检测算法相比,其检测精度得到了显著提升。
遥感目标具有尺度变化大、分布不均匀、密集小目标众多等特点[4]。在相同分辨率下,遥感图像包含不同尺度的目标,且不同类别目标间差异显著[5]。同类目标的不同子类间也存在较大差异,目标类型分布不均衡,部分区域目标分布较为稀疏[6],而某些区域目标高度聚集且多为小尺寸目标。虽然随着网络层数加深,网络的感受野逐渐增大,CNN模型的语义表征能力显著增强,但这也使得图像分辨率降低,经过多层网络的卷积运算后许多细节特征愈发模糊。浅层网络对几何细节信息的表征能力强,但提取特征的语义性较弱。早期以R-CNN[7]为代表的检测器为获取强语义特征,直接在神经网络最后一层特征图上进行预测,但由于缺乏细粒度空间特征,其小目标检测效果较差。目前输出单一特征图的标准CNN网络已无法满足遥感目标检测需求[8]。这种无法用单层特征图同时有效表征多尺度目标的现象称为多尺度问题。为寻求多尺度特征表征,Wang等[9]采用残差连接的自编码器多尺度结构以适应不同尺度变化;Hou等[10]采用多个并行的ROI池化模块将特征映射到不同尺度,并通过多级级联方法进行检测;Zhang等[12]在现有Faster R-CNN[11]基础上,在不同特征图上并行引入不同候选区域提取网络,分别检测不同尺度目标;Singh和Davis[13]针对MS COCO数据集中大量小目标带来的挑战,提出称为尺度归一化图像金字塔(SNIP)的训练策略,该策略可同时应用于Faster R-CNN的两个阶段,并能提升所有尺度的检测精度。
由于单尺度特征的局限性,多尺度特征融合技术日益受到学术界与工业界的重视[14]。尤其在遥感图像多尺度目标检测领域,该技术已被证实具有显著效果。近年来,遥感目标检测领域的相关研究普遍基于这一思路[15]、[16]、[17],通过融合不同分辨率的特征,使其同时具备强语义信息和丰富的位置信息。Yang等[18]采用密集特征金字塔网络进一步强化了不同尺度特征间的关联性;Zhang等[19]提出上下文感知检测网络(CAD-Net),通过注意力调制特征与全局/局部上下文信息解决遥感图像多尺度检测问题;Fu等[20]设计的多尺度特征融合架构通过自上而下路径为浅层特征增强语义表示,并采用自下而上路径将高层特征与低层信息结合,从而提升特征表征能力。Yan等[21]基于多尺度检测框架,通过平衡损失函数中不同尺度目标的训练权重来增强算法对多尺度的鲁棒性。Zhou等[22]结合CNN与图卷积网络(GCN)优势,提出注意力多跳图与多尺度卷积融合网络(AMGCFN),通过多尺度全CNN和多跳GCN双子网络提取高光谱图像的多层次信息。Wang等[23]、[24]先后提出表征增强状态回放网络和多阶段自引导分离网络:前者采用跨模态交互融合方法联合优化多源信息分支参数,提升模态融合的交互性;后者利用自引导网络挖掘类内样本共性特征以提升特征一致性,结合图像纹理与形态特征指导特征学习,有效降低类内差异影响。针对多模态遥感数据分类与红外图像小目标检测任务,Wu等[25][26]分别提出跨通道重建模块CCR-Net和UIU-Net——前者通过跨模态重建策略学习更紧凑的多源遥感数据融合表征,后者将残差U块集成到深度监督网络中实现多层次多尺度目标表征学习。Yao等[27]提出的多模态深度学习框架ExViT通过基于全令牌的决策级融合模块进一步提升性能。Luo等[28]面向高光谱图像变化检测任务提出多尺度差分特征融合网络(MSDFFN),通过学习不同尺度下双时相高光谱图像的精细变化分量,在兼顾多尺度特征的同时表征各尺度间细微差异。
由于遥感目标检测任务的特殊性,遥感图像目标检测不仅需要考虑检测精度,还需兼顾实际工程应用的部署难度与运行效率。基于深度学习的目标检测算法通常侧重于构建深度大宽度神经网络,并通过增加网络模型复杂度来提升检测精度。庞大的网络规模使其难以在卫星、无人机等计算资源固定的嵌入式设备平台上部署,因此并不适用于遥感目标检测任务。
轻量化网络技术是解决神经网络在计算资源有限的硬件平台上实时检测目标的关键。其核心思想是通过设计简化的神经网络结构来减少网络参数和计算量。典型的轻量化网络包括SqueezeNet[29]、ShuffleNet[30]、MobilenetV3[31]、EspNet[32]、EfficientNet[33]和GhostNet[34]。目前轻量化网络的研究主要集中在图像分类任务上,针对目标检测任务的轻量化网络研究较少。这是因为轻量化网络结构过于简单,难以充分提取待检测目标的特征信息和位置信息。若单纯对网络进行轻量化处理来检测遥感目标,其检测精度远不能满足要求。
高精度与轻量化对于遥感图像目标检测在实际工程中的应用部署至关重要。如何构建高精度轻量化的遥感目标检测网络值得深入研究。Sharma等人[35]提出YOLOrslite,通过强制卷积核采用张量序列结构来抵消过参数化问题。该网络兼具轻量存储与实时推理特性,在边缘端部署中极具应用前景。Han等人[36]提出轻量级全卷积网络LWCDNet用于变化检测。Huang等人[37]提出方向自适应知识提取与蒸馏方法(DKED),该方法在不增加推理成本的前提下,有效提升了轻量化遥感目标检测模型的性能。
总而言之,模型精度与计算能力及存储容量之间的冲突一直阻碍着遥感图像目标检测算法的发展。现有方法通常侧重于构建深度大、宽度高的神经网络,并通过增加模型复杂度来提升检测精度,却始终忽视了实际工程应用的部署难度与运行效率。轻量化技术虽能大幅减少网络参数量和计算量,但遥感图像具有目标尺度多样、目标尺寸小、数量多、密度高、成像背景复杂等特点,简化后的网络结构会极大限制模型提取目标特征信息与位置信息的能力,精度损失往往更为显著。
为弥补上述不足,本文基于YOLOv5架构提出一种轻量化目标检测模型AMFLW-YOLO(注意力与多尺度特征融合轻量化YOLO)。该模型以轻量化神经网络中具有代表性的MobileNet为基础构建轻量化特征提取网络。为满足遥感目标检测算法在移动终端和嵌入式设备上的部署需求,我们对MobileNet中的轻量化模块进行扩展,获得新的特征提取网络以实现模型轻量化。具体而言,采用深度可分离卷积与逆残差线性瓶颈结构替换YOLOv5中的标准卷积模块,同时在特征提取网络中引入坐标注意力(CA)机制,通过强化信息表征来增强特征。此外,我们提出新的特征融合层:在融合层中同时引入CA机制模块与双向特征金字塔网络(BiFPN)结构,利用CA机制兼顾通道与位置信息以提升网络对正样本的关注度,同时避免引入大量计算开销;采用双向加权特征融合来增强特征提取,通过引入可学习权重更好地平衡不同尺度的特征信息,从而提升模型对不同尺寸目标的检测能力。
本工作的主要贡献总结如下。
- 提出了一种融合CA机制的轻量化特征提取网络模块。该模块采用深度可分离卷积与逆残差线性瓶颈结构,显著降低了模型体积与参数量,并利用CA机制实现更高效的特征提取,以满足硬件平台资源受限条件下的实时遥感目标检测需求。
- 为补偿模型轻量化带来的精度损失,在特征融合过程中引入CA机制,同步捕获跨通道、方向感知和位置感知信息,结合轻量化特征提取实现网络效率与精度的兼顾,为遥感目标检测任务带来显著性能增益。
- 为更好应对多尺度问题,创新性地采用高效双向跨尺度连接与加权特征融合结构,实现简洁高效的多尺度特征融合。通过充分利用原始遥感图像的上下文信息,提升网络的多尺度特征提取能力,从而改善对多尺度目标的检测效果。
本文其余部分组织结构如下。第二章分析了传统手工特征算法与深度学习检测算法的研究现状,并介绍了我们提出的算法。第三章详细阐述了本文提出的AMFLW-YOLO网络。第四章讨论了实验设备与结果,并与其他研究成果进行了对比分析。
2.相关工作
遥感图像中目标信息的检测与识别一直是遥感图像处理与分析领域的研究热点。近几十年来,全球范围内围绕这一问题展开了大量研究。当前主流的遥感目标检测算法可分为基于人工特征的传统算法和基于深度学习的目标检测算法两大类。
A. 基于手动特征的目标检测算法
Kim等[39]采用矩形模板替代截面图,通过最小二乘相关模板匹配方法追踪城市遥感影像中的带状道路。Weber和Lefevre[40]提出的自适应二值HMT方法具有不同形状和尺寸的结构元素,可检测遥感影像中的建筑物、海岸线、储油罐等目标。但刚性模板匹配对模板精度要求高,且对形状和密度变化敏感,当目标视角发生变化或类内差异较大时检测效果较差。Bai等[41]提出结合尺度不变特征变换(SIFT)与目标空间信息的新特征描述符,并采用支持向量机(SVM)将检测任务转化为排序查询任务,实现遥感影像中感兴趣目标的检测。Shi等[42]将遥感影像中的舰船目标视为异常,通过高光谱算法提取候选舰船区域,利用AdaBoost增强HOG特征生成假设并检测舰船目标。基于传统机器学习的目标检测方法通过特征提取与分类器训练相结合取得了一定成果,但传统特征提取算法提取的特征本质上是低层特征,缺乏高层语义信息,且需针对特定类型设计专门特征,难以有效表征目标特征。同时特征分类器性能受设定参数和训练样本影响显著,实验结果不尽如人意。
B. 基于深度学习的物体检测算法
近年来,大量遥感图像处理领域的研究者尝试将深度学习技术引入遥感图像目标检测任务,并开展了大量相关研究。Cheng等[43]通过在R-CNN框架中引入新型旋转不变层并优化新目标函数,提出了一种学习旋转不变CNN模型以高效检测遥感目标的新方法。Van Etten[44]基于YOLOv2网络设计了YOLT目标检测模型,用于快速检测卫星图像中的船舶、飞机和机场目标。Xu和Wu[45]提出了一种基于YOLO的遥感目标检测特征增强网络,该网络模型以YOLOv3为基础,针对遥感目标中小目标数量多、背景复杂等难点增加了特征增强模块。Li等[46]通过将低秩表示模型与深度学习技术相结合,提出了新型高光谱异常检测基线网络LRR-Net,以提升异常检测的表征性能。Xie等[47]针对分布密集且背景复杂的遥感目标检测任务,设计了基于YOLOv4的目标检测算法:利用K-means聚类算法对锚框数量进行聚类以降低模型计算量;通过采用残差连接替代原模型中的连续卷积实现密集分布目标的检测;最后在特征提取阶段加入自适应特征激活因子。针对小目标检测问题,研究者提出基于密集连接与多尺度特征融合的方法,并在Kaggle数据集上进行训练测试,相较原始YOLO模型提升了检测精度。
3.方法
如图1所示,我们对YOLOv5large网络进行优化改进,获得了一个轻量高效的AMFLW-YOLO网络:1)为减少模型参数量和计算负荷,采用深度可分离卷积与逆残差线性瓶颈结构两个轻量化模块构建新主干网络;2)在颈部层嵌入CA模块,使轻量化网络能更精准定位识别目标对象,避免大量计算开销;3)采用BiFPN结构替代原FPN,通过更高效的多尺度融合方法提升精度。此外,采用meta-AconC激活函数和余弦退火学习率策略训练网络,以加速模型收敛并提升训练速度。AMFLW-YOLO网络结构如图2所示。
图1. AMFLOW-YOLO采用的优化技术。通过使用深度可分离卷积和逆残差线性瓶颈结构构建新的特征提取网络,替代原主干网络;引入CA机制与BiFPN结构构建新的特征融合网络,替代原颈部层。
图2. AMFLW-YOLO网络结构。
A. 轻量级特征提取网络模块
相较于在已训练模型上进行处理,轻量化模型设计的核心思想在于改进卷积方式并设计更高效的网络计算方法以提升检测效率。针对YOLOv5架构中特征提取网络模块参数量大、计算复杂度高的问题,本研究对其进行了优化:将原始主干网络中的标准卷积替换为深度可分离卷积模块,构建轻量化特征提取器。该方法在精度略微下降的情况下,显著减少了参数量和计算量。深度可分离卷积最早由MobileNetV1提出,其采用不同卷积核处理不同输入通道,将普通卷积操作分解为逐通道卷积与逐点卷积两个过程。深度卷积的每个卷积核仅负责单一通道,完成后的特征图数量与输入层通道数相同,无法实现特征图扩展。此外,深度卷积对输入层各通道独立进行卷积运算,未能有效利用同一空间位置下不同通道的特征信息。因此需要通过逐点卷积将这些特征图进行组合以生成新特征图。逐点卷积相当于卷积核尺寸为1×1的标准卷积,对前一步特征图进行深度方向的加权组合,从而确保深度可分离卷积与标准卷积具有相同的输出维度。本研究中,在深度卷积与逐点卷积之间插入CA机制,形成新型深度可分离卷积模块,用于增强网络对方向与位置信息的敏感度,其原理将在后文详述。图3展示了改进后的深度可分离卷积模块结构。
图3. 带CA机制的深度可分离卷积模块结构。
通过计算参数量和计算量来验证轻量化模型的有效性。标准卷积和深度可分离卷积的参数量可通过以下公式计算:
其中,
N
s
t
d
N_{std}
Nstd表示标准卷积参数量,
N
s
e
p
N_{sep}
Nsep代表深度可分离卷积参数量,
I
n
c
h
In_{ch}
Inch指输入通道数,
O
u
t
c
h
Out_{ch}
Outch为输出通道数,
k
k
k表示卷积核大小。
标准卷积和深度可分离卷积的计算量通过以下公式计算:
其中, C s t d C_{std} Cstd表示标准卷积计算, C s e p C_{sep} Csep代表深度可分离卷积计算, H H H表示输入特征图的高度, W W W表示输入特征图的宽度, I n c h In_{ch} Inch指输入通道数, O u t c h Out_{ch} Outch指输出通道数, k k k表示卷积核大小。
其次,在主干网络层中引入了MobileNetv2[49]提出的逆残差线性瓶颈结构,并利用问题的低秩特性提升层结构效率。与传统残差结构相反,逆残差结构首先通过1×1卷积扩展输入特征矩阵的维度以增加通道数,随后在更高维空间通过3×3逐通道卷积进行特征处理以捕获更多特征信息,最后通过1×1卷积实施降维操作,将高维特征映射至低维空间实现数据压缩,从而减少网络参数量。在高维空间中,ReLU等激活函数能有效增强特征的非线性表达能力,但这种效果仅存在于高维状态。由于逆残差结构在末端会压缩通道数量,此时采用非线性激活会导致更严重的特征损失。为避免非线性破坏大量特征信息,该结构在最后一个1×1卷积模块后插入线性瓶颈层替代原有的非线性激活变换,由此形成的逆残差线性瓶颈结构能更好地捕获感兴趣区域。在激活函数选择上,该结构采用ReLU6激活函数,其数学定义如下式所示:
该激活函数将最大输出限制为6。在低精度移动设备上使用此激活函数可获得良好性能。然而在梯度下降过程中,下降强度完全取决于权重的乘积,这可能导致算法反向反馈时出现梯度爆炸。Swish非线性激活函数[50]作为ReLU的替代方案,能显著提升网络精度,但其计算和求导过程复杂,对量化过程不友好,尤其不利于移动设备。因此结合MobileNetV3的优势,在倒残差线性瓶颈结构中,将深度可分离卷积操作前的relu6激活函数替换为
H
s
w
i
s
h
H_{swish}
Hswish激活函数[51],该函数采用分段线性函数
H
S
i
g
m
o
i
d
H_{Sigmoid}
HSigmoid[52]来拟合替代swish激活函数中的sigmoid函数。其定义如下:
H s w i s h H_{swish} Hswish激活函数由多个常见运算符组成,它通过减少内存访问次数而对性能影响甚微,显著降低了延迟开销,使其更适用于嵌入式设备。与其他激活函数相比,其计算速度更快且对量化更为友好。图4展示了引入 H s w i s h H_{swish} Hswish激活函数的倒残差线性瓶颈结构。
图4. 引入 H s w i s h H_{swish} Hswish激活函数的反向残差线性瓶颈结构。
B. 基于注意力机制与多尺度特征融合的特征融合网络模块
尽管网络结构轻量化,模型计算量大幅减少,但轻量级网络过于简单的结构难以充分提取待检测目标的特征信息和位置信息。此外,遥感图像存在目标尺度变化大、小目标多、检测难度高等问题,导致检测精度下降。本文在颈部网络层引入CA机制[53]和BiFPN结构[54],提出基于注意力机制的高效多尺度特征融合网络模块,在降低权重的同时保证检测精度。与其他注意力机制相比,通道注意力机制(压缩激励网络)[55]在编码过程中忽略了位置信息的重要性,卷积块注意力模块(CBAM)[56]机制无法捕获长距离依赖关系。为避免将所有空间信息压缩至通道维度,本研究采取以下改进措施:首先,CA机制将全局平均池化操作分解,对尺寸为C×H×W的输入特征图分别沿水平和垂直方向进行平均池化,得到C×H×1和C×1×W两个方向的特征图;其次在空间维度对结果进行拼接,通过卷积压缩通道后拆分,利用1×1卷积重新调整双向特征向量的通道数;最后通过空间维度加权融合空间信息。CA机制不仅关注通道信息,还包含方向感知和位置敏感信息,在捕获长程依赖关系的同时避免了二维全局池化中位置信息的丢失。本研究采用两种改进策略:1)在主干网络的倒残差线性瓶颈结构中,在逐通道卷积与逐点卷积之间引入CA机制;2)在颈部网络与预测层之间的卷积操作前分别添加三个不同维度的CA模块,使模型能更精确定位和识别不同尺寸的目标区域,从而增强轻量级网络的特征表征能力。图5展示了引入CA机制的倒残差线性瓶颈结构模块示意图。
图5. 结合CA机制的倒残差线性瓶颈结构。
在特征融合过程中,原始YOLO结构中的FPN[57]直接对特征进行相加。由于不同输入特征的分辨率存在差异,它们对融合后输出特征的影响往往不均衡。为解决这一问题,我们在颈部网络层引入了BiFPN结构。该结构最初应用于EfficientDet模型,与以往的特征融合方式不同,BiFPN采用多级特征融合机制:通过水平与垂直方向的信息传递实现多尺度特征的综合利用,并采用自适应特征加权机制。该机制为每个特征分配不同权重,使网络能更好地平衡不同尺度的特征信息,同时减少不必要的特征节点连接。
在颈部网络层的特征融合过程中,根据BiFPN的结构特性,我们跨层连接了同层级的输入输出节点,从而缩短了上下层之间的信息传输路径。在优化器参数中新增并设置了可学习权重:节点权重
ω
n
ω_n
ωn和特征加权系数
ω
f
ω_f
ωf。针对每个节点,先通过卷积层融合多个输入特征图,再通过sigmoid激活函数获得节点权重,以调节各节点在特征融合中的重要性。对于每个特征图,则采用卷积层将其特征向量映射为标量,再通过sigmoid函数进行加权,从而调整不同特征图的贡献度,增强模型表达能力。特征加权系数的计算公式如下:
其中, F i \mathbf{F}_i Fi表示第 i i i个输入特征图, f f f代表卷积操作, σ σ σ指代sigmoid函数, ω i ω_i ωi表示第 i i i个特征图的加权系数。我们将所有特征图与对应权重系数相乘后,通过Concat操作拼接成新的特征图,其计算公式如下:
其中,Concat表示特征拼接函数;
F
o
u
t
\mathbf{F}_{out}
Fout代表输出特征图;
ω
0
、
ω
1
、
…
…
、
ω
(
n
−
1
)
ω_0、ω_1、……、ω_{(n−1)}
ω0、ω1、……、ω(n−1)为特征加权系数;
F
0
、
F
1
、
…
…
、
F
(
n
−
1
)
\mathbf{F}_0、\mathbf{F}_1、……、\mathbf{F}_{(n−1)}
F0、F1、……、F(n−1)则指输入特征图。图6展示了本文提出的高效特征融合模块。
图6. AMFLW-YOLO网络的特征融合模块。
C. 激活函数
在确定AMFLW-YOLO网络架构方案后,我们进一步从激活函数选择角度对网络进行优化。激活函数为网络提供非线性特性,赋予网络更强的表达能力。原结构在颈部层的卷积模块中采用swish激活函数,该函数通过逐元素应用sigmoid线性单元,具有无上界但有下界、光滑且非单调的特性,在深层网络中表现出明显的性能优势。swish激活函数的表达式由以下公式计算得出:
其中 σ σ σ表示sigmoid激活函数。
然而,网络中使用Sigmoid激活函数容易导致梯度消失,且在网络训练过程中常需计算Sigmoid值的幂运算,导致计算量巨大。为了进一步轻量化网络,我们采用元AconC激活函数[58]替代swish激活函数。swish激活函数的表达式由以下公式计算得出:
其中 p 1 ∗ x p1∗x p1∗x和 p 2 ∗ x p2∗x p2∗x表示线性函数, β β β代表切换因子。元AconC激活函数的设计空间包括层级、通道级和像素级,分别对应网络层、通道和像素。我们采用通道级方案,通过分别对 H H H和 W W W维度求平均来实现整个通道的自适应学习。每个通道的所有像素通过两次全连接操作共享权重。参数 β β β由sigmoid函数导出。该激活函数的线性与非线性状态通过参数 β β β动态控制,使神经元能自适应调整激活状态。这一机制显著减少了网络参数量,并大幅提升了性能表现。
4.实验
本节在两个公开遥感数据集和一个自建的水坝遥感数据集上评估了所提模型的检测性能,并将所提方法与现有经典目标检测算法进行对比,以证明该算法的优越性。
4.1 数据集与训练
RSOD数据集[59]是由武汉大学公开发布的光学遥感数据集,包含四类共计976张高分辨率卫星图像,标注实例总数达6950个。目标类别涵盖飞机、操场、立交桥和油桶,图像分辨率为800×800像素。
DOTA数据集[60]是面向遥感目标检测的大规模基准数据集。该数据集中的图像主要来自谷歌地球,少量源自JL-1卫星和GF-2卫星,包含2806幅图像、15个类别共计188282个实例。数据集中原始图像的分辨率介于800×800像素至4000×4000像素之间。
DOTA数据集的图像分辨率介于800至4000像素之间,部分图像的宽高比过大导致无法直接训练。因此需将数据集中的图像切割为600×600的固定尺寸,并根据切割后的图像生成对应标注信息文件。由于切割操作会导致部分图像出现空标注目标或越界标注目标,需删除不符合要求的标注文件及对应图像。最终实验数据按4:1比例划分为训练集和验证集,其中训练集包含16505张图像,验证集包含4388张图像。
为进一步验证所提算法的检测效果,本文引入了一个新的遥感图像大坝目标检测数据集(DTDRSI)。该数据集包含880幅航空大坝图像,采集自不同传感器和平台,每幅图像尺寸为600×600像素。数据集涵盖不同尺度、方向和形状的大坝目标。为避免数据量不足导致模型过拟合,对单样本进行了数据增强处理:通过水平翻转和随机方向旋转操作扩充数据集,最终按4:1比例划分得到训练集和验证集。实验数据最终包含2054幅训练集图像和586幅验证集图像。数据集采用labelImg工具标注,完整标注的DTDRSI数据集共包含2759个实例。图7展示了DTDRSI中部分标注图像的样本示例。
图7. DTDRSI数据集中标注图像的示例。
AMFLW-YOLO网络在64位Windows 10操作系统环境下进行评估,使用Python编程语言和Pytorch库。处理器为英特尔酷睿i7-7700HQ,显卡采用8GB显存的NVIDIA Geforce GTX 1080。
AMFLW-YOLO模型的损失函数由三部分组成:分类损失、置信度损失和定位损失。针对小尺寸密集目标,分类损失和置信度损失采用变焦损失(VFLoss)[61],该损失函数通过样本加权思想解决正负样本不平衡问题。损失函数的表达式由以下公式计算得出:
其中, p p p表示预测的感知分类分数, q q q代表目标分数, α α α为可调节的比例因子。定位损失采用完全交并比(CIoU)损失,仅计算正样本的定位损失。三个预测特征层的置信度损失采用不同权重:小目标预测特征层使用4.0权重,中等目标预测特征层使用1.0权重,大目标预测特征层使用0.4权重。训练过程中采用预热[62]和余弦退火学习率优化策略[63],该策略使学习率从极小值线性增长至预设值以防止模型过拟合,随后按余弦函数值衰减以加速模型收敛。优化器权重衰减和预热初始动量分别设置为0.0005和0.8;每批次包含四张图像;输入图像分辨率为640×640像素;所有实验所用模型均在训练集上训练300轮;初始学习率设为0.0032。
B. 模型轻量化性能评估
我们的方法(AMFLOW-YOLO)与基准模型YOLOv5l以及现有的先进轻量级单阶段目标检测算法进行了对比,包括Lite-YOLOv5[64]、YOLOv7-Tiny[65]、YOLOX-s[66]、YOLOX-Tiny、PicoDet-L[67]和YOLObile[68]。对比指标涵盖模型参数量、模型大小、浮点运算量(FLOPs)和检测速度。其中FLOPs用于衡量模型的计算复杂度。
表I列出了所提方法与上述先进方法在参数量、模型大小、计算量和检测速度上的对比结果。AMFLW-YOLO具有最少的参数量和最小的模型体积(参数量:197万,模型大小:4.4MB)。其参数量比最小算法(PicoDet-L)降低了40.3%,相较原始结构YOLOv5l基准模型削减了97.4%的参数。基于RSOD数据集训练的模型体积仅为4.4MB,比YOLOv5l基准模型缩小了95.7%。值得注意的是,本模型具有比其他网络更低的复杂度。AMFLW-YOLO的计算量为4.62G FLOPs(乘加运算),仅为YOLOv5l(111.4G FLOPs)的4%。实验结果验证了本文模型轻量化方法的有效性。AMFLW-YOLO更适合应用于微型嵌入式设备。同时,AMFLW-YOLO的检测速度达到5.6毫秒/帧,满足遥感目标实时检测的需求。
C.消融实验
为评估我们提出的AMFLOW-YOLO算法的检测性能,我们通过消融实验来检验算法各项改进(模型轻量化、注意力机制和多尺度特征融合)对性能的影响。性能评估指标包括平均精度均值(mAP)和参数量(params)。
表II列出了AMFLW-YOLO在RSOD数据集上采用不同优化措施获得的实验结果。“DS”、"IS(H_S)"和"MA"分别代表深度可分离卷积、结合 H s w i s h H_{swish} Hswish激活函数的倒残差线性瓶颈结构以及meta-AconC激活函数。方法(1)表明,当仅通过深度可分离卷积替换标准卷积实现网络轻量化时,模型参数量呈几何级数大幅下降,但会导致检测精度损失,网络mAP和参数量分别降低6.2%和42.79M。方法(2)(3)显示,当特征提取层采用倒残差线性瓶颈结构并同时用meta-AconC激活函数替换SiLu激活函数时,网络参数量在前述基础上进一步减少,mAP较上一步分别提升2.3%和1.7%,但仍低于基线值,证明倒残差线性瓶颈结构与meta-AconC激活函数在轻量化网络中具有性能优势。方法(4)表明,在轻量化基础上引入CA机制,仅增加0.47M参数量即可使mAP提升3.4%。方法(5)显示在前述基础上引入BiFPN结构,mAP较上一步提升1.3%的同时网络规模得到进一步压缩。AMFLW-YOLO的模型结构选择方法(5)以保证最优模型性能,最终在RSOD数据集上获得95%的mAP,参数量为1.97M。相较YOLOv5l基线模型,mAP提升2.5%的同时参数量减少45.09M。我们采用Grad-CAM对模型改进策略进行可解释性分析,图8展示了YOLOv5l与AMFLW-YOLO在RSOD和DOTA数据集上对小尺寸目标和大尺寸目标的Grad-CAM热力图,可见相较于YOLOv5l,AMFLW-YOLO对检测目标定位区域具有更高关注度,对非目标区域的无关环境信息关注更少。同时对于不同尺寸目标,AMFLW-YOLO能更好地将注意力集中在正样本区域,同时降低对环境无关信息的关注。这表明基于轻量化网络引入CA机制增强了网络特征表征能力,而BiFPN结构的采用显著提升了模型对不同尺度遥感目标的检测效果,实验结果验证了各项改进措施的有效性。
图8. 通过Grad-CAM获取的YOLOv5l与AMFLW-YOLO对小尺寸目标和大尺寸目标的热力图。(a) YOLOv5l在RSOD数据集上生成的小目标与大目标热力图。(b) AMFLW-YOLO在RSOD数据集上生成的小目标与大目标热力图。© YOLOv5l在DOTA数据集上生成的小目标与大目标热力图。(d) AMFLW-YOLO在DOTA数据集上生成的小目标与大目标热力图。
D. 与现有先进方法的对比
本文将所提方法(AMFLW-YOLO)与基准模型YOLOv5l以及当前先进的轻量级单阶段目标检测算法(包括LiteYOLOv5、YOLOv7-Tiny、YOLOX-s、YOLOX-Tiny、PicoDetL和YOLObile)进行检测性能对比。性能评估指标包括各类别的平均精度(AP)、所有类别的平均精度均值(mAP)以及总体标准差(PSD)。其中AP和mAP用于评估目标检测性能,我们遵循PASCAL VOC2007基准计算AP和mAP,IoU阈值设为0.5。表III展示了上述先进方法在RSOD数据集上的实验结果,数据显示本方法获得了95%的mAP值,相较于YOLOv5基准网络在检测精度上有小幅提升。与Lite-YOLOv5相比,本方法的mAP提高了6.9%。表IV展示了上述方法在DOTA数据集上的实验结果,本方法取得了84.7%的mAP。相较于Lite-YOLOv5、YOLOv7-tiny、YOLOX-tiny、PicoDet-L和YOLObile,AMFLW-YOLO的整体性能显著提升,尤其对小目标检测效果突出。例如在小型车辆类别中,AMFLW-YOLO的AP达到80.5%,较YOLOv7-tiny提升20.4%,较YOLObile提升18.8%。表IV还显示"飞机"、“大型车辆”、“船舶”、"网球场"和"棒球场"等类别取得了更优的检测性能,这可能是因为这些目标类别的类内差异较小。
PSD用于衡量单类别AP与所有类别mAP的偏离程度,以反映模型检测性能的稳定性。表III显示AMFLW-YOLO检测结果的PSD为5.80,表IV则显示其PSD为13.53。实验结果表明,AMFLW-YOLO在两个数据集上的检测结果离散度最小,模型检测性能更为稳定。
表V展示了上述先进方法在DTDRSI数据集上取得的实验结果,我们的方法获得了90.9%的mAP值。为突显所提方法的优越性,本文同时提供了Lite-YOLOv5和YOLOX-tiny在DTDRSI数据集上的实验结果。实验结果表明:相较于YOLOv5l和YOLOx-s,LiteYOLOv5和YOLOX-tiny在测试集上的mAP值均出现小幅下降,而AMFLW-YOLO在测试集上的mAP值分别提升了2.8%和4.9%。这表明本文提出的方法能在网络轻量化的基础上更好地保持检测性能。
如图9所示,我们选取YOLOv7-tiny和YOLOv5l与AMFLW-YOLO进行样本检测结果对比。通过样本检测结果可见,YOLOv7-tiny和YOLOv5对遥感影像中的小尺寸目标均存在不同程度的误检现象,而本方法在提升检测精度的同时显著降低了误检率。性能提升主要得益于本文采用的CA机制和BiFPN结构,能更好地平衡不同尺度的特征信息,降低伪目标干扰的可能性。图10展示了AMFLW-YOLO在RSOD和DOTA数据集上的检测效果,图11则展示了该方法在DTDRSI数据集上的检测表现。
图9. YOLOv7-tiny、YOLOv5l与AMFLW-YOLO的检测效果对比样本。(a)标注框。(b)YOLOv7-tiny检测结果。©YOLOv5l检测结果。(d)AMFLW-YOLO检测结果。
图10. AMFLW-YOLO在(a)RSOD和(b)DOTA数据集上的检测效果。
图11. AMFLW-YOLO在DTDRSI数据集上的检测效果。
简而言之,整体实验结果表明,针对复杂背景遥感图像中的目标检测任务,我们提出的AMFLW-YOLO算法在模型轻量化和检测精度方面均优于上述目标检测算法。
E.讨论
本文提出的算法基于多尺度思想,采用高效的双向跨尺度连接与加权特征融合结构,通过融合多层级低阶特征来增强高阶特征,增加特征维度和信息量。针对遥感图像中的小目标检测,本文算法较上述算法表现更优。但小目标在图像中占据像素较少且分辨率较低,因此无法保证构建的特征对小目标具有足够的可解释性和区分度。训练过程中对小目标的监督不够完善,小目标的损失对模型整体损失的贡献较小,导致提取的特征效果仍不够理想。随着深度学习在超分辨率技术中的逐步应用,基于超分辨率的小目标检测方法具有较好的可解释性,且取得了非常亮眼的效果。但这类算法对硬件要求较高,且高度依赖海量数据支撑。在后续工作中,利用超分辨率技术增强小目标检测特征将是我们研究的重点,同时会考虑在训练过程中专门针对小目标进行重采样以提升训练质量。此外,本文提出的目标检测器针对单幅图像的推理设计并取得了良好效果,但缺乏多帧间的关联性研究。将提出的AMFLW-YOLO算法结合多帧图像间的时空关系应用于遥感图像变化检测,将是我们未来的重点研究方向。
5.结论
本文提出了一种基于注意力机制与多尺度特征融合的轻量化遥感图像检测算法AMFLW-YOLO。该算法通过结合轻量化网络模块、注意力机制和多尺度特征融合技术,实现了轻量化网络与算法精度的平衡。首先,在特征提取层采用深度可分离卷积和反残差线性瓶颈结构,显著减少模型参数量,实现模型轻量化;其次,在特征融合层引入CA注意力机制以增强网络特征表征能力,并参考BiFPN结构设计了高效的双向跨尺度特征融合网络,强化特征提取能力,更好地捕捉多尺度特征,有效提升复杂背景下遥感目标的检测精度。在DOTA、RSOD和DTDRSI数据集上的实验结果表明,该方法对复杂背景下的遥感目标具有良好的检测性能。未来我们将基于本文继续探索解决光谱变异性的方法,利用超分辨率技术增强小目标检测特征,以及遥感图像变化检测也将成为我们的研究重点。