An Improved YOLOv5 Method for Small Object Detection in UAV Capture Scenes

ABSTRACT

针对YOLOv5无人机高空拍摄场景中存在大量小而密集目标和复杂背景噪声干扰的问题,提出了一种改进的YOLOv5无人机拍摄场景目标检测算法。首先提出了一种特征增强块(FEBlock),通过卷积生成不同感受野特征的自适应权值,将主要权值分配给浅层特征映射,提高小目标特征提取能力。然后将FEBlock与空间金字塔池(Spatial Pyramid Pooling, SPP)相结合,生成增强空间金字塔池(Enhanced Spatial Pyramid Pooling, ESPP),对每个最大池化的结果进行特征增强;并通过对融合的上下文特征加权,生成包含多尺度上下文信息的新特征,使其具有更好的特征表征能力。其次,提出自特征扩展板(SCEP),通过压缩、非线性映射和自身模块的扩展实现特征信息的融合和扩展,进一步提高网络的特征提取能力,并通过与自特征扩展板的拼接生成新的空间金字塔池(ESPP- s)。最后,在YOLOv5网络模型的大、中、小检测层中加入一个较浅的特征映射作为检测层,提高网络对中、远距离目标的检测性能。在VisDrone2021数据集上进行实验,结果表明改进的YOLOv5模型将mAP0.5提高4.6%,mAP0.5:0.95提高2.9%,精度提高2.7%。在1024 × 1024的输入分辨率下训练的模型mAP0.5达到56.8%。实验表明,改进的YOLOv5模型可以提高无人机捕获场景的目标检测精度。

I. INTRODUCTION

随着无人机技术的不断发展,配备摄像头的无人机或通用无人机已迅速部署到各种应用中,包括农业、航空摄影、公共安全、生态保护等。因此,对这些平台收集的可视化数据的直观理解的要求越来越高。基于深度学习的目标检测技术在无人机上的应用越来越广泛。然而,无人机飞行的高度高,拍摄到的图像中有大量的小型物体,以及小型密集物体之间复杂的背景噪声干扰,导致检测精度[1]显著降低。这给无人机捕获场景中的目标检测带来了困难,因此设计一种提高图像中小目标检测精度的方法非常重要。

近年来,深度学习技术发展迅速,许多基于卷积神经网络(CNN)的目标检测算法被提出并用于检测无人机图像中的目标。主要存在两种类型的目标检测算法:基于两阶段和基于单阶段的方法。基于两阶段的目标检测方法也被称为候选区域检测方法。首先根据图像提取候选框,然后根据候选区域进行二次校正得到测点结果。检测精度高,但检测速度慢。

这类算法首先是RCNN (Region CNN)[2],然后是Fast-RCNN (Fast Region- based CNN)[3]和Faster-RCNN (Faster Region- based CNN)[4]。由于其优异的性能,Faster-RCNN在目标检测领域仍然是一个非常有竞争力的算法。随后,FPN (Feature Pyramid Network)[5]和Mask RCNN[6]等算法针对Faster-RCNN的不足提出了改进,进一步丰富了Faster-RCNN的组成部分,提高了其性能。

与两阶段目标检测算法相比,单阶段目标先验算法直接在图像上计算生成检测结果,检测速度快,但检测精度较低。这种算法的先驱是YOLO (You Only Look Once)[7]。随后,SSD (Single Shot MultiBox Detector)[8]和Retinanet[9]依次对其进行了改进,随后基于YOLO的改进版本为YOLOv2[10]、YOLOv3[11]、YOLOv4[12]和YOLOv5。虽然预测精度低于两阶段目标检测算法,但由于YOLO的全面性能,可以检测到无人机图像。

更具体地说,学者们对无人机捕获场景的目标检测进行了广泛的研究。文献[13]将空间注意模块(SAM)与通道注意模块(CAM)相结合,改进了CAM中特征压缩后的全连通层,改变了SAM与CAM的连接结构,提出了空间通道注意模块(SCAM),并将其应用于YOLOv5上改进了空间维度特征捕获,不仅减少了计算量,而且在一定程度上提高了精度。文献[14]提出了TPH-YOLOv5,在YOLOv5的基础上增加了一个预测头,并在头部部分加入了变压器编码器块,形成变压器预测头(Transformer prediction Heads, TPH),提高了无人机图像中高密度遮挡物的检测。文献[15]采用上下文注意模块(Context Attention Module, CAM)、尺度增强模块(Scale Enhancement Module, SEM)和尺度选择模块(Scale Selection Module, SSM),提出了一种用于细节检测的尺度选择金字塔网络(Scale Selection Pyramid Network, SSPNet),通过控制相邻层的数据流来抑制FPN中梯度计算不一致的问题。为了解决遮挡条件导致的误检和漏检问题,文献[16]通过数据清洗和增强,提高检测网络的泛化能力,设置先验锚框架,并基于IoU (Intersection over Union)调整检测层的置信度损失函数,重构网络。文献[17]采用双向特征金字塔网络进行颈拉,并引入SimAM注意力模块有效融合特征。文献b[18]提出了一种新的检测网络dclinet,用于对无人机图像中密集的小人物进行裁剪和局部关注,以解决网络无法对小物体进行聚焦的问题。综上所述,深度学习方法在无人机图像目标检测中具有很高的应用价值,并且已经取得了很多成果。但是,为了提高检测精度,还需要进一步的研究。

本文将特征增强块(FEBlock)自特征膨胀(SCEP)设计并引入到YOLOv5原有的空间金字塔池(SPP)[19]模块中。FEBlock首先嵌入到SPP中,然后通过SCEP模块继续融合和扩展特征信息。提出了一种增强特征表示的空间金字塔池化模块ESPP-S。此外,增加了一个较浅的特征映射作为小目标检测层,提高了网络对中远距离目标的检测性能。

•特征增强块(FEBlock)旨在增强感受野,并使不同的感受野特征能够有效融合。FEBlock还被嵌入到SPP模块中,生成增强空间金字塔池(Enhanced Spatial Pyramid Pooling, ESPP)模块,该模块比原来的SPP模块具有更强的特征表征能力。

•设计自特征扩展板(SCEP),实现特征信息的融合和扩展。将ESPP模块与SCEP模块拼接,提出了esp - s模块,提高了小目标检测能力。

•在YOLOv5网络模型的大、中、小检测层的基础上,根据数据集的特点增加一个较浅的特征映射作为检测层,提高网络对中、远距离目标的检测性能。

2无人机捕获场景小目标检测

本文以YOLOv5 version 6.1作为基准网络,并进行了后续的改进。YOLOv5有5个型号:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。由于YOLOv5x的检测效果优于其他四个模型,即使计算成本高于其他模型,我们仍然选择YOLOv5x来追求更高的检测性能。

A. YOLOv5网络结构和改进

YOLOv5算法易于部署和训练,具有很高的可靠性和稳定性。同时,它也是目前精度最高的单阶段目标检测算法之一。因此,本研究选择YOLOv5作为无人机捕获场景的目标检测算法进行进一步改进。YOLOv5遵循了YOLO系列的检测思路,即对输入图像进行网格划分。当网格中存在检测对象的中心点时,使用网格对该对象进行检测。YOLOv5模型由四个组件组成:输入、主干、颈部和头部。首先,输入端对待检测图像进行处理后发送到骨干网,然后通过CBS、C3和SPPF (SPP-Fast)进行初步特征提取。骨干网产生不同尺度的特征图,然后通过PANet (Path Aggregation Network,路径聚合网络)增强对不同尺度目标的检测能力[20]。最后生成三个特征图P3、P4、P5,分别检测图片中的小、中、大物体。Prediction Head使用预设的先验边界框对三个特征图中的每个像素进行置信度计算和边界框回归,得到包含对象类、类置信度、框坐标、宽度和高度信息的多维数组。通过设置相应的阈值对阵列中的无用信息进行过滤,并进行非最大抑制(non-maximum suppression, NMS)处理,输出最终的检测信息[21],[22]。

针对无人机捕获场景中存在大量密集小目标以及存在复杂背景噪声干扰的问题,本文提出了一种基于YOLOv5的改进小目标检测算法。图1显示了改进的YOLOv5模型的结构。整体网络架构从三个方面对原有网络设计进行优化。红色虚线框表示改进的空间金字塔池化。首先,通过设计特征增强块增加接收野,提高对小目标区域的关注程度;

针对不同的感受域形成自适应权值,提高模型在不同尺度下的提取能力。将特征增强块融合到SPP中,提出了增强空间金字塔池化(Enhanced Spatial Pyramid Pooling, ESPP)模块,该模块对每个最大池化的结果进行特征增强,并通过对融合后的上下文特征加权生成包含多尺度上下文信息的新特征。在SPP中引入特征增强块,通过减弱背景噪声干扰来提高全局特征提取能力。其次,用自特征膨胀板拼接后,对特征信息进行进一步融合和扩展;这使模型具有更好的鲁棒性,提高了对小密度目标的检测能力。蓝色虚线框表示微尺度检测层,通过收集较低的空间特征并将其与高级语义特征相结合来提高模型检测较小物体的能力。

B.空间金字塔池化的改善

最新版本的YOLOv5使用SPPF,它将SPP中的三个并行最大池替换为串行池,并将池核大小全部修改为相同的大小。通过简化池化过程,避免了SPP操作的重复,提高了网络运行的速度。图2显示了该结构与原始SPP的比较。虽然SPPF加快了网络的检测速度,但在面对小而密集的物体时,检测精度并不理想。因此,本文提出了一种基于SPP的空间金字塔池(ESPP-S),它比SPP和SPPF具有更强的特征表征能力。

首先,设计特征增强块(FEBlock)来增强特征的表示能力。

此外,还设计了自特征扩展板(SCEP),用于特征信息的融合和扩展。

将特征增强块FEBlock集成到空间金字塔池化模块中,生成增强空间金字塔池化(ESPP)。然后将ESPP与自特征扩展块拼接生成ESPP- s,提高了小密度物体的检测效果。

特征增强块(FEBlock)

FEBlock可以看作是一种特征增强块,它在不深化网络的情况下通过组合不同的信道信息集成了信息。该结构采用类似eca的注意机制,通过卷积生成不同感受野特征的自适应权值,实现不同感受野特征的高效融合,增强特征表征[23],[24]。FEBlock如图3所示。

首先沿空间维度将特征压缩成1× 1个标量,通过全局平均池化将输出形成1× 1×C特征图,表示特征通道响应值的全局分布。一维卷积遵循三个不同的卷积核大小。一维卷积作为一个非完全连接的层,每个卷积只作用于一些通道,允许通过并行性完全集成一些通道交互。这允许适当的跨通道交互,并避免了完全连接层可能造成的模型复杂性。最后,将经过二维卷积特征变换和Sigmoid特征映射后生成的每个通道的权值乘以各自的权值[25]。

传统的卷积融合了输入特征映射的所有通道,网络不能集中在重要的特征通道上。而FEBlock可以调整权值的分布,增强有用的特征,抑制无用的信息[26]。当输入不同比例的特征图时,模型可以自适应调整无人机捕获场景中小目标的接收域大小,以提高模型的目标检测性能。

我们将FEBlock引入到YOLOv5中作为功能增强模块。考虑到YOLOv5中的空间金字塔模块通过池化操作生成不同尺度的上下文特征图,在原有空间金字塔模块中引入特征增强模块,生成不同尺度特征图的自适应权值,得到新的ESPP模块,其结构如图4所示。ESPP模块首先通过固定尺度池化分支生成不同感受野的特征图,然后通过FEBlock压缩通道,将空间信息嵌入到空间注意图中,并通过加权融合上下文特征生成包含多尺度上下文信息的新特征。当输入不同尺度的特征图时,该模型可以自适应调整图像对象接受区域的大小,突出显示特征图中与对象相关的区域,因此,与原有的SPP模块相比,该模块具有更强的特征表示能力。

  • 35
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: tph-yolov5是一种基于Transformer预测头的改进版yolov5,用于在无人机捕捉场景中进行目标检测。它采用了Transformer网络结构,能够更好地处理长序列数据,提高了检测精度和速度。在无人机应用中,tph-yolov5可以更好地适应复杂的场景和光照条件,提高了无人机的自主飞行和目标跟踪能力。 ### 回答2: tph-yolov5是一种改进版的yolov5目标检测算法,主要应用于无人机场景下的目标检测。与传统的yolov5相比,tph-yolov5采用了transformer prediction head技术来进一步提高检测的准确率和效率。 无人机场景下的目标检测任务比较特殊,因为无人机拍摄的图像往往具有良好的视角和高度,但是环境复杂多变且目标出现频率较低,因此传统的目标检测算法可能会遇到一些困难,例如漏检、错检等问题。而tph-yolov5算法在transformer prediction head帮助下,能够更好地解决这些问题。 具体来说,tph-yolov5算法的优势在于如下三个方面: 1. Transformer Prediction Head技术 tph-yolov5采用transformer prediction head技术来生成目标检测的预测结果。相比传统的卷积神经网络,transformer prediction head能够更好地捕捉物体之间的关系,并且在计算量相同的情况下,能够获得更高的准确率。 2. 自适应感受野 在tph-yolov5算法中,网络会根据目标的大小和位置自适应地调整感受野的大小,这样可以更好地捕捉目标的细节,提高检测的准确率。 3. 融合多尺度特征 tph-yolov5算法融合了多尺度特征,这样可以更好地处理远距离目标和近距离目标的检测。在无人机场景下的目标检测任务中,这一点尤其重要,因为有些目标可能会比较小或者比较远。 总之,tph-yolov5是一种非常优秀的目标检测算法,它在无人机场景下的目标检测任务中表现很出色。由于采用了transformer prediction head技术等优秀的方法,它能够更准确地捕捉目标,同时也能够更快地处理大量的数据。由于无人机技术的快速发展,相信tph-yolov5算法将在未来得到更广泛的应用。 ### 回答3: tph-yolov5是一种改进的基于transformer预测头的yolov5,用于在无人机捕获的场景中进行物体检测。无人机拍摄的场景与传统的场景有很大不同,比如拍摄的视角更高,场景更广阔,物体更稀疏。这些因素导致传统的物体检测模型难以在无人机场景中准确地检测物体。因此,tph-yolov5的提出是为了解决这些问题。 tph-yolov5使用了transformer预测头来改进yolov5模型的表现。具体来说,transformer模型用于生成特征图中的位置嵌入,以在后续的特征映射中对不同位置的特定位置进行建模。这种方法可以更准确地定位每个目标的位置,特别是在稀疏目标场景中。此外,tph-yolov5还使用了引入MSELoss和IoULoss的CAP L1损失以增强模型的稳定性和准确性。 tph-yolov5的实验结果表明,在无人机拍摄的场景中,tph-yolov5相比于基准模型yolov5和其他物体检测模型,具有更高的准确性和稳定性。这些结果证明了transformer预测头的优越性以及CAP L1损失对模型表现的关键作用,这为无人机场景中物体检测的发展提供了新的思路和方法。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值