【论文阅读笔记】A modified YOLOv5 for object detection inUAV-captured scenarios

Abstract

近年来,无人机图像处理中的目标检测逐渐成为一个研究热点。一般的目标检测算法在应用于无人机场景时,性能有明显下降的趋势。这是由于无人机图像从高海拔以高分辨率和大量的小物体拍摄的事实。为了在满足轻量化特性的同时提高无人机目标检测精度,对YOLOv5s模型进行了改进。为了解决小目标检测问题,增加了预测头,以更好地保留小目标的特征信息。同时集成了CBAM注意模块,在密集场景中更好地发现注意区域。为了减轻IOU对小对象的敏感性,在后处理中采用NWD-NMS代替原有的IOU- nms。实验表明,该方法在Visdrone-2020数据集上具有良好的性能,mAP比原始mAP有了明显的改进。

I. INTRODUCTION

随着无人机技术的发展,无人机的应用场景不断扩大,引起了研究人员的广泛关注。

无人机能够在对人类来说相对危险的环境中执行任务,并且可以快速轻松地部署。它们在现代作战中发挥着极其重要的作用,在民用方面具有更广阔的应用前景。[16]无人机可用于完成战场侦察和监视、损伤评估,也可应用于灾害监视、交通巡逻和安全监视。由于无人机任务的特殊性,无人机图像的处理相对困难。因此,无人机计算机视觉逐渐成为研究热点之一。

目标检测作为一项经典任务,已成为无人机图像处理中具有挑战性的主流。物体检测可以对视频或图像中的物体进行定位和识别,帮助我们在特定的应用场景中进行分析和决策。然而,由于无人机图像是从高空捕获的,它们与COCO[1]或ImageNet[2]数据集上的图像非常不同。由于无人机捕获的图像分辨率高,小目标比例高,一般的目标检测方法在无人机图像数据集上表现不佳。以VisDrone-2020数据集为例,该数据集中的边界框尺寸大多小于50*50像素,小物体占多数。这使得目标检测算法的检测精度大大降低,无法得到充分利用。

虽然也有一些算法用于提高小目标检测的精度,但仍然很难在检测精度和速度之间取得很好的平衡。由于其优异的性能和速度,YOLO[15]已成为无人机平台上常用的优越网络。以YOLOv5s为例,原模型在VisDrone-2020数据集上可以达到66 FPS的检测速度,但平均精度只有12.7%。[3] YOLOv5系列中其他三个更强大的模型在一定程度上提高了精度,但模型大小和推理时间显着增加。尽管YOLOv5使用的马赛克数据增强[11]可以有效地解决模型训练中最具挑战性的小目标问题,但其在VisDrone-2020数据集上的精度并不令人满意。

因此,针对VisDrone2020数据集中的小目标检测问题,我们对YOLOv5s模型进行了以下三个主要改进:在骨干网的C3模块上增加CBAM[4]关注模块;2. 增加预测头P2,用于小目标检测;3.后处理时使用NWD-NMS[5]对边界框进行过滤。与原来的YOLOv5s模型相比,我们得到的模型在检测精度上有了显著的提高,mAP从32.9%提高到40.7%。与其他方法相比,我们的方法提高了对各类物体的检测精度,特别是对人、电机等小型物体的检测精度。

II. RELATED WORK

本节对拟开展的研究工作的相关工作进行概述,主要包括以下两个方面:小目标检测和无人机图像中的目标检测。

A. small object detection

在目标检测算法发展的早期,为了保证检测的精度,大多数数据集都由突出的目标组成。近年来,越来越多的学者开始关注小目标检测,并提出了有效的解决方案。目前主流的小目标检测方法主要分为多尺度特征学习数据增强基于gan的检测

多尺度特征学习结合了深层语义信息浅层特征信息,便于小目标的特征提取,提高了小目标检测的性能。在深度神经网络中,由于特征信息的丢失,很难检测到深度特征映射中的小目标。浅层特征图的接受野较小,但可以获得更多的空间和详细的特征信息。因此,Liu等人[6]提出了一种单点检测器(single spot detector, SSD),从特征图中生成不同尺度的预测,使用浅特征检测小目标,使用深特征检测大目标。为了获得更好的特征融合效果,Lin等人提出了一种特征金字塔网络(FPN),该网络引入了自顶向下的网络结构,通过融合相邻层的特征来实现特征增强。

随后,许多学者在FPN的基础上进行了许多改进,大大提高了检测精度。多尺度特征融合虽然能有效提高小目标检测的性能,但也增加了额外的计算量,且难以避免特征融合过程中干扰噪声的影响,使得基于多尺度特征的小目标检测性能难以进一步提高。

数据增强策略目前在目标检测领域有着广泛的应用。数据增强的目的是增加数据集的多样性,扩大数据集的规模,从而提高深度学习的性能。针对小对象样本在训练数据集中所占比例较小的情况,Kisantal等[8]提出了复制增强方法,通过复制粘贴的方式增加小对象的训练样本数量,而Chen等[9]则通过对图像进行缩放和拼接,增加中小对象的数量和质量,解决小对象数量少、信息量少的问题。虽然数据增强策略在一定程度上解决了信息少的小目标问题,但由于计算量的增加和需要针对不同目标进行优化,使得算法设计具有挑战性。

B. object detection in UAV images

无人机航拍图像通常具有背景复杂、目标小、视场大的特点,使用通用场景数据集进行训练任务很难达到令人满意的效果。考虑到无人机图像数据集的缺乏,近年来学者们逐渐开始开发一系列无人机视觉数据集。

dronevvehicle数据集主要面向车辆检测和车辆计数,包含RGB图像和红外图像,覆盖昼夜时间段以及目标遮挡和尺度变化。DOTA数据集由来自多个传感器和平台的不同分辨率的航空图像组成,包含不同规模、方向和形状的物体。VisDrone 2020数据集由无人机获取,包含400多个视频和1万多张不同天气和光照条件下的静止图像,并提供场景可视性、物体类别和遮挡等重要属性。每张图像包含大量检测到的对象,总共包含260万个标记框,对象之间和大量小对象之间存在重叠,使其成为一个非常具有挑战性的数据集。

III. METHODOLOGY

A. Visdrone Dataset

如前一节所述,传统数据集中小目标的比例比较低,并不适用于无人机图像的训练。结合第二节对目前应用于无人机视觉的数据集特点的概述,我们选择了VisDrone 2020作为实验数据集。

VisDrone数据集是一个具有挑战性的数据集,它由大量的小物体组成。如图1a所示,对象的标签类别包括行人、人、自行车、汽车等。从直方图中可以看出,数据集包含了大量的检测对象,并且每个类别的数据分布不均衡。图1b给出了目标盒的长、宽与原图像的比值,可以看出,比值小于0.1的目标盒所占比例较高。因此,Visdrone数据集更适合于无人机目标检测。

B. Attention Module

由Woo等人提出的卷积块注意模块(Convolutional Block Attention Module, CBAM)是一种简单有效的前馈卷积神经网络注意模块。如图2所示,CBAM在通道和空间两个独立的维度上从输入特征图中推断出注意图,并将注意图与输入特征图相乘,进行自适应特征细化。CBAM混合关注特征表达信息的通道信息和关注定位信息的空间信息来提取特征信息,有效地帮助信息在网络中流动。CBAM是一种轻量级的通用模块,可以集成到任何骨干网络中以提高性能。

CBAM是一种混合域注意机制。图3给出了通道注意模块空间注意模块的具体计算过程。对于信道关注模块,给定一个输入特征映射,分别经过全局平均池化和全局最大池化操作,得到两个不同的空间语义描述算子,并通过共享感知器传递。对两个通道的注意力特征向量进行求和进行融合。

最后,通过激活函数得到通道关注向量。对于空间注意力模块,给定输入的特征映射,沿着通道维度分别进行全局平均池化和全局最大池化操作,得到两种不同的通道特征描述算子,并将两者拼接在一起,通过卷积核为7*7的卷积运算。最后,通过激活函数得到空间注意力向量。

作为一个即插即用的注意力模块,CBAM可以很容易地插入到YOLOv5模型中。在本文中,我们选择在C3模块中添加CBAM。C3模块是由原来的瓶颈csp模块改造而来,该模块包含三个标准卷积层和几个瓶颈模块,该模块作为残差特征学习的主要模块。引入注意机制后的YOLOv5s骨架结构如图4所示。

C. Prediction head P2

由于Visdrone 2020数据集包含许多非常小的对象,并且YOLOv5的下采样倍数很大,因此更深层的特征映射很难学习到小物体的特征信息。如图4所示,原始网络结构的P3、P4、P5预测头分辨率较低,缺乏底层特征表示,使得原始模型难以学习到小物体的特征。因此,我们增加了一个用于小目标检测的预测头P2,它与原来的三个预测头相结合,以减轻目标尺度变化的负面影响。P2预测头的特征信息仅下采样4次,具有更高的分辨率和更完整的特征图信息,更有利于小目标检测。虽然增加额外的预测头会增加计算量,导致推理检测速度下降,但对小目标的检测性能有所提高。

D. NWD-NMS

在目标检测的预测阶段,会输出许多候选框,其中同一目标周围有许多重叠的预测边界框,因此需要采用非极大值抑制(NMS)来抑制冗余的预测边界框。在最初的YOLOv5模型中,IOU被直接用作度量标准。首先,对所有预测框按照置信度进行排序,选取置信度最高的预测框,去除IOU高于预定义阈值的其他框,即抑制非最大置信度边界框。这个过程递归地执行,直到没有一对边界框太相似为止。

然而,IOU对小对象的敏感性可能导致许多预测框的IOU值低于预定义的阈值,从而导致假阳性预测。如图5所示,每个网格表示1个像素,框A表示地面真实边界框,框B和C分别表示偏离1个像素和4个像素的预测边界框。可以看出,对于正常尺寸的物体来说,小的位置变化对IOU的影响并不大。然而,当物体尺寸很小时,很小的位置偏差就会导致IOU的显著降低。因此,基于iou的NMS对于小对象的检测并不理想。

IOU的本质是计算两个样本集的相似度,因此wang等人[5]提出用Wasserstein距离代替IOU来度量边界盒的相似度。首先,将边界框建模为二维高斯分布,归一化Wasserstein距离(NWD)用于度量推导出的高斯分布的相似度。与IOU相比,NWD在检测小物体时对不同尺度不敏感,同时能够度量不重叠或相互包含的边界框之间的相似性。因此,对于小目标检测,NWD的性能远高于IOU。因此,我们将原来的YOLOv5s模型中的ou - nms改为NWD-NMS,可以有效地过滤小目标的预测框,提高小目标检测的性能。

IV. EXPERIMENTS

选择Visdrone-2020数据集作为实验数据集,研究无人机视觉中的目标检测问题。

针对无人机图像的特点,对YOLOv5s模型进行了三点改进:(1)增加CBAM模块,(2)增加P2预测头,(3)采用NWDNMS。我们通过准确率、召回率和mAP对改进后的模型进行了综合评价。

我们修改的方法运行环境:CPU为Intel i7 11800H, GPU为Nvidia RTX3080,操作系统为Windows。本文使用改进的YOLOv5s网络结构进行训练,初始学习率设置为0.01,批大小设置为16,学习epoch数设置为300。

如表1所示,为了验证三种改进方法的有效性,我们使用消融实验进行测试。实验是将各模块分别加入到原模型中,依次验证各模块的影响。实验结果表明,每种改进方法对原模型都有一定的改进效果。首先是增加了CBAM注意模块,与原始模型相比,该模块在mAP和推理速度上都有轻微的提高。然后是最有效的P2预测头,由于P2预测头保留了更丰富的小目标特征信息,可以很好地检测无人机图像中的小目标,因此对mAP的改进非常大。虽然增加检测头增加了额外的计算量,但也很好地提高了小目标的检测性能。NWD-NMS的改进也在一定程度上提高了mAP,使用三种改进方法得到的最终模型在mAP方面比原始模型有很大的提高。

实际场景下的检测效果如图6所示。

图6a为原始YOLOv5s模型的检测结果,可以看出图像中存在明显的遗漏和误检,例如左上角的卡车被误检为汽车,左下角左侧区域的小物体未被检测到。如图6b所示,在我们改进的模型的检测结果中,一些原来被误检测的目标得到了纠正,许多以前未被检测到的低清晰度小目标被检测到。可以看出,我们改进的方法在实际检测中仍然是非常有效的。

在表2中,我们将我们的方法与其他方法进行了比较。我们选择了委员会提交的几个基线算法与我们的方法进行比较,毫无疑问,我们改进的方法比委员会提交的结果有更好的AP。仔细比较每个类别的AP,我们可以发现几乎每个类别的AP都有所提高。特别是对人、车、电机等细小物体的检测精度有了很大的提高。这表明我们的方法在小目标检测问题中发挥了重要作用。还可以注意到,我们对雨棚、三轮车、公交车等数字小的物体不够好。这也是我们的缺点,如果这个问题解决了,我们的精度会提高更多。

V. CONCLUSIONS

本文分析了当前无人机捕获场景中目标检测算法存在的问题,针对无人机图像中小目标高分辨率、占比大的特点,对YOLOv5s模型进行了三方面的改进。最终的实验结果表明,改进后的模型比原来的模型更适用于Visdrone-2020数据集,并且每个模块都能很好地提高该数据集上的目标检测精度。我们的方法在性能方面也优于其他方法,特别是在小目标检测方面。此外,本研究也存在一定的局限性。首先,通过实验对比可以发现,虽然我们的方法对于小物体检测的精度有所提高,但是对于一些标签数量较少的类别,比如雨棚三轮车和公交车,我们的精度提高并不令人满意。此外,我们的方法仅在Visdrone-2020数据集上进行了验证,这有一定的局限性。未来将考虑在更多无人机场景中的适用性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值