目标检测:视觉系统中的CNN-Transformer融合网络

一、背景

无人机(UAVs)在城市自动巡逻中发挥着重要作用,但它们在图像识别方面面临挑战,尤其是小目标检测和目标遮挡问题。此外,无人机的高速飞行要求检测系统具备实时处理能力。

为解决这些问题,我们提出了一种新的实时目标检测网络(RTD-Net),它结合了卷积神经网络(CNN)和Transformer的优势。RTD-Net特别设计了特征融合模块(FFM)和高效卷积Transformer块(ECTB),以增强小目标和遮挡目标的检测能力。同时,轻量级特征提取模块(LEM)确保了网络的高效运行,满足实时性需求。

我们的实验表明,RTD-Net在UAV图像数据集上实现了高精度和高速度的检测性能,且在嵌入式设备上也表现出良好的实时检测能力,为智能城市监控提供了一种有效的技术解决方案。

二、相关工作

无人机(UAV)在智能监控和城市巡逻中的应用日益增多,它们为自动目标检测提供了新的视角。然而,UAV图像的目标检测面临几个挑战:

  1. 小目标检测:由于UAV飞行高度较高,地面目标在图像中呈现较小,难以检测。
  2. 目标遮挡:城市环境中的遮挡物,如树木和建筑物,会阻断目标的视觉连续性,影响检测性能。
  3. 实时性能要求:无人机的快速移动要求检测系统具备高速处理能力。

为了应对这些挑战,研究人员已经探索了多种方法:

  • 传统方法:早期的研究依赖于手工特征提取和机器学习分类器,如SIFT和SVM,这些方法依赖于专家知识且不够灵活。

  • 基于CNN的方法:随着深度学习的发展,基于CNN的方法已经成为主流。这些方法通过端到端学习提高了检测精度,但通常计算量大,难以满足实时性要求。

  • 基于Transformer的方法:最近,Transformer因其在处理序列数据中的长距离依赖关系的能力而受到关注。将其应用于图像检测,可以增强模型对遮挡目标的识别能力,但计算成本较高。

本研究提出的RTD-Net,通过结合CNN和Transformer的优势,旨在实现对UAV图像中小目标和遮挡目标的高效检测。我们通过设计轻量级特征提取模块和高效的Transformer块,减少了计算量,同时通过特征融合模块提升了小目标的检测性能。

三、提出的网络框架

为了提高无人机在复杂环境下的目标检测能力,我们提出了一个名为RTD-Net的实时目标检测网络,其整体结构如图1所示:
image.png

图1:RTD-Net体系结构概述

这个网络特别设计以应对小目标检测、遮挡目标识别和实时处理的需求。RTD-Net的关键组成部分包括:

1.RTD-Net概述

  • RTD-Net是一个单阶段检测网络,它直接从输入图像预测目标的位置和类别,然后通过非最大抑制(NMS)处理来获取最终检测结果。
  • 网络设计考虑了检测精度和速度的平衡,特别适用于资源受限的嵌入式设备。

2.轻量级特征提取模块(LEM):

LEM是网络的骨干部分,它使用同质多分支架构来减少计算量和参数数量。如图2所示,通过1x1的卷积核整合通道信息,然后通过3x3的卷积核进行特征提取,有效降低了模型的复杂性:

image.png

图2:LEM

3.高效卷积Transformer块(ECTB):

设计了一个基于CNN和变压器的ECTB,标准变压器块主要由MHSA层和线性层组成,如图3所示:
image.png

图3:不同变压器块的结构。(a)标准变压器块。(b)瓶颈变压器(BoT)块。©拟议的ECTB。

ECTB是网络的核心创新之一,它结合了CNN和Transformer的优势。通过引入卷积多头自注意力(CMHSA)机制,ECTB能够提取图像的全局特征,并通过上下文信息改善遮挡目标的识别。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.特征融合模块(FFM):

FFM基于双向特征金字塔网络(BiFPN)设计,用于融合不同层级的特征。通过特征融合,FFM增强了模型对小目标的检测能力,提高了特征的表达能力。

5.注意力预测头(APH):

  • APH采用了基于归一化的注意力模块(NAM),用于提高模型对复杂场景中目标的注意力集中能力。
  • APH通过通道和空间两个独立的维度来推断输入图像的注意力,如图4所示,并将其应用于输入特征图,以提升检测精度。
    image.png

图4:(a)通道注意机制。(b)空间注意机制

这些组件共同工作,使得RTD-Net能够在保持高检测精度的同时,满足UAV在资源受限环境中的实时性要求。

四、实验

为了全面评估RTD-Net的性能,我们在多个方面进行了实验,包括在自定义的UAV图像数据集和标准的MS COCO2017数据集上的评估,以及在嵌入式平台上的实时性能测试。

1.数据集准备:

我们收集并创建了一个包含9630张图像的UAV图像数据集,这些图像涵盖了不同的天气条件、光照环境和城市郊区背景。
image.png

数据集被分为训练集(60%)、验证集(20%)和测试集(20%),包含七种常见的地面目标类别:轿车、行人、摩托车、自行车、卡车、公交车和三轮车。

图像中的目标根据平均面积比例(AAR)被分为大、中、小三类,以模拟真实世界中UAV检测的挑战。

2.在UAV图像数据集上的结果:

我们使用平均精度(mAP)作为主要的评估指标,以衡量模型在不同类别和不同大小目标上的检测性能。RTD-Net在该数据集上达到了86.4%的mAP,超过了其他现有的最先进方法,同时在NVIDIA GTX1080Ti上实现了312帧/秒的高检测速度。

我们还进行了详尽的对比实验,将RTD-Net与多种最新的目标检测模型进行了比较,包括Faster R-CNN、SSD、YOLO系列等,证明了RTD-Net在检测精度和速度上的优势。

3.在MS COCO2017数据集上的结果:

为了测试RTD-Net的泛化能力,我们在标准的MS COCO2017数据集上进行了额外的评估。
RTD-Net在COCO2017数据集上的表现与UAV图像数据集上的表现一致,显示出良好的泛化能力和在不同场景下的适用性,COCO2017中的可视化结果:
image.png

4.嵌入式平台测试:

我们在NVIDIA Jetson TX2嵌入式平台上测试了RTD-Net的实时性能,这是评估其在实际UAV应用中的适用性的关键步骤。
image.png

  • 在不使用TensorRT优化的情况下,RTD-Net在TX2上达到了33.4帧/秒的检测速度,满足了实时检测的要求。
  • 使用TensorRT优化后,检测速度略有下降,但模型的检测精度提高了,证明了RTD-Net在资源受限设备上的实际应用潜力。

通过这些详细的实验,我们全面验证了RTD-Net在目标检测任务中的高性能,特别是在UAV视觉系统中的实际应用价值。

五、结论

本研究成功开发了一种名为RTD-Net的实时目标检测网络,专为无人机(UAV)视觉系统设计,以应对城市自动巡逻中的复杂挑战。通过精心设计的网络结构,包括轻量级特征提取模块(LEM)、高效卷积Transformer块(ECTB)和特征融合模块(FFM),RTD-Net在检测精度和速度上均取得了显著的性能。

  • 检测精度:在UAV图像数据集上,RTD-Net实现了86.4%的mAP,特别是在小目标和遮挡目标的检测上,相比现有技术有显著提升。
  • 实时性能:在NVIDIA Jetson TX2嵌入式设备上,RTD-Net展现了满足实时处理需求的能力,检测速度达到33.4帧/秒,证明了其在资源受限环境中的实用性。
  • 泛化能力:在MS COCO2017数据集上的测试进一步证实了RTD-Net良好的泛化能力,表明该模型不仅适用于特定的UAV视觉任务,也能泛化到其他目标检测场景。

总之,RTD-Net的有效性在多个层面得到了验证,其在智能监控和自动化巡逻等领域具有广泛的应用前景。未来的工作将探索该模型在更多样化的实际场景中的应用,并进一步优化其性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是Dream呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值