A Modified YOLOv8 Detection Network for UAV AerialImage Recognition

Abstract

无人机多目标探测在民用和军事领域都起着举足轻重的作用。尽管深度学习方法为该任务提供了更有效的解决方案,但从无人机的角度来看,目标尺寸形状变化遮挡和光照条件的变化仍然给该领域的研究带来了很大的挑战。针对上述问题,本文提出了一种性能优良、鲁棒性强的航空图像检测模型。首先,针对航拍图像中小目标容易被误检和漏检的普遍问题,引入Bi-PAN-FPN的思想,对YOLOv8-s的颈部部分进行改进。通过充分考虑和重用多尺度特征,在尽可能保持参数成本的前提下,实现更先进、更完整的特征融合过程。其次,在基准模型的主干中使用GhostblockV2结构代替部分C2f模块,抑制了长距离特征传输过程中的信息丢失,同时显著减少了模型参数的数量;最后,采用WiseIoU损失作为边界盒回归损失,结合动态非单调聚焦机制,采用“离群值”评价锚盒质量,使检测器能够考虑不同质量的锚盒,提高检测任务的整体性能。在全球广泛使用的VisDrone2019数据集上对算法的性能进行了比较和评估,并设计了详细的消融实验、对比实验、可解释性实验和自建数据集实验来验证所提出模型的有效性和可行性。结果表明,所提出的航空图像检测模型在各种实验中取得了明显的效果和优势,为深度学习在无人机多目标检测领域的应用提供了新的思路。

1. Introduction

无人机航拍图像与深度学习检测技术的结合已成为当今热点研究方向[1-3]。无人机监控由于具有机动性和灵活性的特点,能够克服环境、地形等自然条件的限制,具有监控范围广、效率高、成本低等优点[4,5]。然而,深度学习模型在实际的无人机目标检测任务中一直难以部署[6-8]。其原因主要有两点:一方面,无人机航拍图像不同于地面摄影,具有场景大、目标小、多尺度、背景复杂、重叠遮挡等特点[10-12]。难以准确检测到特定物体;另一方面,此类检测任务往往需要在嵌入式设备中实现推理过程,对准确性和实时性要求很高。复杂的目标检测模型很难部署在边缘设备中,轻型目标检测器难以提高精度[13-15]。这些因素阻碍了深度学习方法在无人机多目标探测领域的发展。2021年6月,在2021年全球人工智能技术大会(GAITC 2021)上,腾讯优图实验室与厦门大学人工智能研究院正式发布《2021年人工智能十大趋势》,指出满足计算复杂度高、模型尺寸小的低边缘模型将逐渐成为企业降本增效益的新工具。可以预见,在未来,越来越多的智能化企业将面临一个新的阶段,从早期的快速扩张到高效运营,而在这个过程中,深度模型的边缘化部署无疑将成为他们的重要手段。因此,设计一种既考虑检测精度又兼顾轻量化的模型来弥补深度学习在无人机航拍图像应用中的瓶颈,具有重要的现实意义。本文针对上述问题,提高了无人机航拍图像多目标检测模型的通用性和有效性。

本工作的主要贡献如下:1。从关注大尺度特征映射的角度出发,引入Bi-PAN-FPN思想,提高了模型对小尺度目标的检测能力,同时增加了多尺度特征融合的概率和次数,以获得更好的特征工程化效果。解决了航拍图像中容易对小目标进行误检和漏检的问题;2. 对模型的骨干网和损失函数进行了优化。结合Ghostblock单元Wise-IoU边界盒回归损失,从特征多样性、特征信息的远距离捕获、避免几何因子的过度惩罚等方面提高了模型的泛化性能。抑制了模型参数的数量,同时提高了模型的精度。解决了预测锚点的远程信息丢失问题和平衡问题;3.通过烧蚀实验验证了所构建模型的可行性和有效性。与原始基准网络相比,该模型在国际开源数据集VisDrone2019上的MAP性能提高了9.06%(测试集),参数数量减少了13.21%(测试集),综合能力显著提高。

4. 将该模型与目前最主流和最先进的六种深度目标检测模型进行了比较,证明了该模型的优越性。通过对三种优秀模型的可解释性的比较,说明了该方法的优越性。

本文的其余部分组织如下:第2节回顾了前人的相关工作。

第3节提出了一种改进的航空图像检测模型,详细介绍了该模型的结构和工作机理。第4节首先介绍了实验环境和参数设置,然后在国际开源数据集VisDrone2019上进行烧蚀实验、对比实验和可解释性实验,全面验证了本文方法的可行性。第5部分对全文的研究结果进行了总结,并对未来的研究方向进行了展望。

2. Related Work

无人机视角下的目标检测在得到广泛应用的同时也面临着诸多挑战,具有深刻的现实意义和研究意义。随着目标检测技术的不断进步,出现了一些针对无人机图像检测任务的有效方法[16-20]。例如,参考文献[16]提出了一种无人机图像目标检测方法ufmp - net。该方法考虑到无人机数据集相对于自然图像数据集规模小、场景单一的特点,设计了统一前景填充(UFP)模块,对粗糙检测器给出的子区域进行聚类,实现背景抑制。所得到的图像之后组装成一个马赛克来进行单一的推理,大大降低了整体时间成本,提高了探测器的精度和效率。参考文献[17]针对无人机图像中的小目标检测问题,提出了一种高分辨率检测网络(HRDNet)。该网络解决了高分辨率图像输入网络会导致计算成本增加的问题。该网络采用多深度图像金字塔网络(MD-IPN)和多尺度特征金字塔网络(MS-FPN)两种特征融合方法,充分优化特征工程。它将高分辨率特征输入浅层网络以降低计算成本,而将低分辨率特征输入深层网络以提取更多语义。这种处理方法使网络在高分辨率图像训练模式下提高准确率,减少对硬件的苛刻要求。参考文献[18]提出了一种结合注意机制跨模态融合变压器(CFT),一种高效的跨模态特征融合思想。该方法基于变换体系结构提取图像特征,使网络能够专注于全局上下文特征。此外,通过设计注意机制,网络可以同时进行模内和模间融合。这大大提高了航空图像中多光谱目标检测的综合性能。实验表明,该方法在大量数据集上具有良好的泛化能力和鲁棒性。参考文献[19]观察到,航拍下的目标具有高度聚类的特点。提出了一种聚类检测(clusterdet)网络,该网络通过设计聚类建议子网(CPNet)、规模估计子网(ScaleNet)和专用检测网络(DetecNet)来完成端到端的检测过程。当监测开始时,网络关注于聚合区域,而不是直接检测单个目标。然后将其裁剪后送至精细检测器进行进一步检测,在一定程度上解决了无人机图像中目标聚集小、分布不均匀的问题。

参考文献[20]提出了一种基于特征融合和缩放的单镜头探测器(FS-SSD),可以快速准确地从航空角度检测小目标。该方法基于SSD检测器,通过增加一个额外的反卷积分支和平均池化来调整特征融合模块,形成一个特殊的特征金字塔。此外,该方法将目标的空间关系与检测任务相结合,进一步提高了检测精度。

尽管先进的目标检测方法在推动无人机多目标检测任务中发挥了至关重要的作用,但这些方法大多需要巨大的内存开销和计算需求,并且难以直接部署在边缘设备等低功耗图像处理器中。YOLO系列检测网络的出现解决了这一问题。该系列模型目前已经迭代了8个正式版本和多个分支版本[21]。标准的YOLO模型通常可以分为三个部分:脊柱、颈部和头部。其中主干是一种特征提取网络,用于提取图像中的特征信息[22,23];颈部可以融合从主干提取的特征,使网络学习到的特征更加多样化,提高了检测网络的性能;Head可以利用之前的高质量特征工程做出准确的预测。几乎每一代YOLO模型都在这三种结构上做了相应的改进和增强。由于YOLO系列模型在检测精度和速度方面表现优异,已广泛应用于工业、遥感、交通、医疗等领域。目前,学者们对YOLO等轻量化模型在无人机航拍图像识别领域的应用进行了相应的研究[25-28]。例如,在文献[25]中,针对无人机部署平台资源有限但对实时推理要求较高的矛盾问题,提出了一种自适应模型压缩方法,以减少模型的参数数量和计算量。

该方法通过在模型剪枝过程中设计一个“传递因子”,通过尺度因子判断是否对某一类型的通道进行剪枝,并通过传递因子适当抑制剪枝对后续结构的影响。

3. Improved Aerial Image Detection Model

本文从以下三个方面构建了一个检测精度和速度兼具的无人机航拍图像检测模型:首先,针对航拍图像中小目标容易被误检和漏检的普遍问题,将YOLOv8中的路径聚合网络-特征金字塔网络(PAN-FPN)替换为双向路径聚合网络-特征金字塔网络(Bi-PAN-FPN),并增加了上采样过程,重点关注小目标特征;通过充分考虑和重用多尺度特征,在尽可能保持参数成本的前提下,实现更高级、更全面的特征融合。其次,考虑到FPN改进中增加了少量参数,提出使用GhostblockV2结构代替骨干中的部分C2f模块,抑制了长距离特征传输过程中的信息丢失,同时显著减少了模型参数的数量。最后,用WiseIoU loss代替WiseIoU loss中的CIoU loss。采用动态非单调聚焦机制,利用“离群值”评价锚盒质量,使探测器能够兼顾不同质量的锚盒,提高检测任务的整体性能。

3.1. Improvement of the Neck

在YOLOv8中,特征图由大到小分为5类尺度特征,分别在主干、FPN[29]、PAN[30]结构中表示为B1-B5、P3-P5、N4-N5。最初的YOLOv8使用的PAN-FPN结构是对传统FPN的补充,传统FPN使用自上而下的形式来传递深层语义特征。通过对B3-P3和B4-P4的融合,对特征金字塔进行了语义增强,造成了一定程度的定位信息丢失。PAN-FPN是对FPN背后自下而上结构的补充,利用P4-N4和P5-N5的融合加强对定位特征的学习,达到互补的效果。但是,将这种结构应用于小目标对象检测时,存在改进的空间:一方面,由于对大规模特征映射的关注不足,检测模型可能会忽略一些有用的特征,降低检测质量;另一方面,即使考虑B、P、N特征的融合和补充,特征的重用率较低,且经过较长的上采样和下采样路径后,原有特征会丢失一些信息。因此,对无人机航拍数据集的颈部结构进行如下调整。

首先,我们重新关注大尺度特征图。为了提高对小目标的检测效果,在FPN中增加上采样过程,并与骨干中的B2层特征融合。与之前FPN中的上采样过程类似,使用C2f模块进一步提高特征融合后的特征提取质量。C2f模块是对原C3模块的改进,主要参考了YOLOv7中ELAN结构的优势,梯度信息更丰富。该模块减少了一个标准卷积层,充分利用瓶颈模块扩展梯度分支,在保证轻量化的同时获得更丰富的梯度流信息。它的基本结构如下所示:

其次,我们介绍了Bi-PAN-FPN[31]的思想。该结构的核心思想是提高多尺度特征融合的概率和次数,以获得更高的检测精度。其实现步骤如下:对于只有一个输入路径的特征映射,不进行其他处理。通常,这类特征对特征工程的贡献不大。对于具有两条输入路径的特征图,如果特征图的大小相同,则从主干特征中添加一条额外的路径,并融合PAN中的特征。这种加工方法不增加额外的参数成本。最后,将每个双向(自上而下和自下而上)路径视为一个单元,并多次重用该单元以改善混合。考虑到模型的轻量级,只需要额外的路径。

其中C2f和Conv为对应的模块操作;B、P、N分别对应骨干、FPN、PAN的特征映射;n表示C2f的使用次数;I取值3或4。整个颈部的结构如图2所示。

3.2. Improvement of the Backbone

在YOLOv8中使用常规的卷积模块和C2f模块来实现高质量的图像特征提取和下采样。然而,由于在颈部增加了上采样过程,并使用了Bi-PAN-FPN,在一定程度上增加了模型的参数数量和复杂度。本文将在主干中介绍Ghostblock思想,并使用该结构替换一些C2f模块。Ghostblock是一种轻量级卷积GhostNet[32]的优化方法。

其优势主要体现在两个方面。一方面,Ghostblock遵循了GhostNet的精髓。首先使用常规卷积生成原始特征图,然后结合各种线性变换操作增强特征图的信息。这在有效提取特征的同时保证了特征的多样性。另一方面,提出了一种解耦的全连接(DFC)注意机制。

该机制通过其特殊性,避免了传统注意力算法在计算复杂度方面的局限性,实现了远距离特征信息的捕获。该结构的优点提高了整个结构特征工程的质量。具体来说,在GhostNet中使用的卷积形式被称为cheap操作。其实现过程如式(3)、(4)所示:

                

其中X∈R C*H*W, Y∈R Cout*H*W;F1 * 1表示逐点卷积;Fdp表示深度卷积;c0 out≤Cout。与传统卷积不同的是,在实现廉价操作的开始,只考虑点向卷积来获得比实际输出标准成比例(默认为二分之一)的特征映射,然后对这些特征映射进行深度卷积,以实现线性变换过程。最后,对两步的特征映射进行拼接,得到输出结果。该处理方法通过特征的重用,极大地降低了参数代价和计算代价,并且摒弃了传统卷积中可能存在的冗余信息。然而,这样做的缺点也很明显:点向卷积失去了与空间中其他像素的交互过程,这导致只有使用深度卷积获得的特征图才能捕获空间信息。空间信息的表达将被大大削弱。影响模型的检测精度。此外,卷积结构只能关注局部信息,而能够关注全局信息的自关注机制容易增加模型的复杂性。

DFC注意机制可以很好地改善上述问题。其核心思想是直接使用结构简单的深度可分离结构来获得具有全局信息的注意图。具体计算过程如式(5)、(6)所示。

式中X∈R C*H*W,与式(3)的输入一致;F是一个深度可分离的卷积过程,分为水平(KW * 1)和垂直(1 * KH)两个方向;α 0为垂直方向的注意图;α是基于水平方向上的α 0的注意图。两个方向的解耦极大地简化了提取全局特征信息的过程。同时,由于使用了1 * KH和KW * 1等深层可分结构,大大降低了DFC的复杂性(全连接:O(H2W + HW2);Dfc: 0 (kh hw + kw hw))。Ghostblock将廉价操作与DFC相结合,在考虑特征全局信息的同时,大大降低了模型的复杂度。其结构如图3所示。

   

由于使用了无锚的思想,YOLOv8的损失函数与YOLOv5系列相比有了很大的变化。其优化方向包括分类和回归两部分。分类损失仍采用二值交叉熵损失(BCEL),回归部分采用分布焦点损失(DFL)和边界盒回归损失(BBRL)。完全损失函数可表示为:

              

其中,预测类别损失本质上是交叉熵损失,其表达式为:

            

式中,class为类别的数量;Weight [class]表示每个类别的权重;x为s型激活后的概率值。DFL是对焦损函数的优化,通过积分将分类的离散结果推广为连续结果。表达式是:

式中yi, yi+1表示相邻标签y左右两侧的值,满足yi < y < yi+1, y =∑n i=0 P(yi)yi;其中,P可以通过一个softmax层P(yi),即Si来实现。

与YoloV8中使用的CIoU损失不同,这里使用Wise-IoU损失函数作为边界盒回归损失[34]。一方面,当训练数据的标注质量较低时,损失函数结合了一种动态非单调聚焦机制,利用“离群值”来评价锚框架的质量,避免了几何因素(如距离和宽高比)对模型的过度惩罚。

另一方面,当预测框与目标框高度吻合时,损失函数通过弱化几何因素的惩罚,使模型在训练干预较少的情况下获得更好的泛化能力。基于此,本文采用了具有两层关注机制和动态非单调调频机制的Wise-IoU v3。其表达式为:

其中β表示预测框的异常程度,异常程度越小意味着锚框的质量越高。因此,利用β构造非单调焦点数,可以将较小的梯度增益分配给具有较大异常值的预测框,有效地减少了低质量训练样本的有害梯度;α和δ是超参数。其他参数的含义如图4所示。xp和yp表示预测框的坐标值,xgt和ygt表示Ground真值的坐标值。对应的H和W值分别表示两个框的宽度和高度。可以看出,Su = wh + wgthgt−WiHi。

目前,基于Yolov8改进的航拍图像检测模型如图5所示。与原来的YOLOv8相比,颈部、脊柱和损失功能得到了改进。具体的变化位于图中的图形标签中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值