0.论文摘要和信息
摘要
摘要:多光谱成像和深度学习已经成为支持从自动驾驶汽车到农业、基础设施监测和环境评估等各种用例的强大工具。这些技术的结合导致了非可见光光谱中目标检测、分类和分割任务的显著进步。本文共考虑了400篇论文,详细回顾了200篇,以提供多光谱成像技术、深度学习模型及其应用的权威元综述,考虑了YOLO方法的演变和适应。地面收集是最普遍的方法,占审查论文的63%,尽管用于YOLO多光谱应用的无人驾驶航空系统(UAS)自2020年以来翻了一番。最普遍的传感器融合是红-绿-蓝(RGB)与长波红外(LWIR),占文献的39%。YOLOv5仍然是适应多光谱应用的最常用变体,占所有修改后的YOLO模型的33%。58%的多光谱-YOLO研究是在中国进行的,研究质量与其他国家大致相似(平均期刊影响因子为4.45,而非来自中国机构的论文为4.36)。未来的研究需要集中在(i)开发能够处理不同光谱输入的自适应YOLO架构,而不需要广泛的架构修改,(ii)探索生成大型合成多光谱数据集的方法,(iii)推进多光谱YOLO迁移学习技术以解决数据集稀缺问题,以及(iv)创新与RGB和LWIR以外的其他传感器类型的融合研究。
索引术语:多光谱目标检测,YOLO,卷积神经网络(CNN),深度学习,RGB,LWIR,HSI,MSI,NIR,SAR。
1.引言
将多光谱传感器应用于深度学习算法已经成为无数应用的强大工具[1], [2], [3]。多光谱传感器捕获可见和不可见光谱的数据,提供关于环境的丰富信息[4]、[5]、[6]、[7]、[8]。这些传感器与深度学习算法相结合,如计算机视觉和目标检测模型,为非可见光谱中的任务自动化打开了大门[9]、[10]、[11]。这一领域正在带来重大进步,解决现实世界的问题并彻底改变行业[12]、[13]、[14]。随着经济实惠且紧凑的多光谱传感器和嵌入式深度学习系统开发的进展,它有可能使这些技术更广泛地可用,从而允许未来在资源有限的环境中大规模实施[15],[16]。
最流行、最快、易于部署的开源目标检测算法之一是YOLO[17]、[18]、[19]。自2015年成立以来,YOLO通过新的YOLO版本逐步推进了计算机视觉[20]。随着YOLO变体数量的增加,多光谱YOLO适应和应用的数量也在增加[21]、[22]、[23]。由于默认的YOLO算法针对红绿蓝(RGB)图像进行了优化,因此有大量的YOLO多光谱变体修改来增强检测和分类性能,特别是在人类和车辆目标类别中[24]、[25]、[26]、[27]、[28]。随着多光谱目标检测的发展,许多挑战仍然存在[29],[30]。这些包括对用于模型训练和评估的更广泛和多样化的多光谱数据集的需求,以及随着边缘设备种类以更实惠的成本增加,硬件的多光谱模型可解释性[31]、[32]、[33]。
在其诞生之初,关于多光谱传感器的文献始于用多光谱图像训练未经修改的YOLO模型,提供了使用多光谱传感器进行目标检测的基线比较结果[34]、[35]、[36]。随着YOLO的成熟,进行和合成多光谱特征提取的方法也有所进步[37]、[38]、[39]、[40]、[41]。在YOLO架构的主干、颈部和头部中添加了各种多光谱融合方法,例如创建用于融合红外和可见光图像的双流学习方法,以增强检测性能[42],[43]。多光谱YOLO应用在各个行业也在增长,包括农业部门,在农业部门可以检测特定的植被,如农业区的柑橘树或杂草[44]、[45]、[46]、[47]。多光谱YOLO的其他被高度引用的例子是通过优化能够感知小目标的多光谱YOLO模型,使用合成孔径雷达(SAR)和其他航空衍生图像来检测和跟踪船只[48]、[49]、[50]。
本文献综述旨在全面概述2020年至2024年多光谱目标检测的演变,重点分析YOLO卷积神经网络(CNN)的使用和适应。这篇综述还将确定与遥感应用结合YOLO神经网络自适应相关的增长趋势,以优化非可见光谱的检测性能。研究问题包括:
1.与默认的YOLO模型相比,YOLO架构的修改和增强如何影响其性能和多光谱成像应用的适应性?
2.在基于YOLO的多光谱目标检测的用例应用中,哪些传感器、采集平台和目标类正在增长?
3.基于YOLO的多光谱目标检测面临的主要挑战和未来的研究方向是什么?
本调查将遵循以下结构,按主题组织文献,并协助回答研究问题。第二节将讨论调查文献的方法。第三节将讨论YOLO的历史和演变,而第四节将总结和量化多光谱成像技术和平台。第五节将分析YOLO和多光谱之间的交叉主题。第六节将讨论用于多光谱目标检测的YOLO适配。然后,调查将在第七节中讨论多光谱YOLO应用中使用的数据集和评估指标。第八节将回到YOLO多光谱目标检测、该领域的挑战及其未来方向的讨论。最后,第九节将提供结束语。
2.文献调查方法
在这个快速发展的领域,这篇综述全面总结了2020年1月至2024年4月基于YOLO的多光谱目标检测的最新进展。我们根据研究问题评估了来自知名期刊的400篇论文,这些论文符合预先指定的条件。设计了一种用于识别、选择和分析相关文献的搜索方法,以确保一种彻底和系统的方法。最后,我们从知名期刊中选择了200篇前沿且被高度引用的论文。此外,保留了几篇新颖的非YOLO CNN目标检测研究论文,以比较YOLO以外的多光谱计算机视觉发展。
搜索策略侧重于指定时间范围内的出版物,利用主要的学术数据库,包括IEEE Xplore、Scopus、Web of Science和谷歌学术。搜索中使用的主要关键词是YOLO、CNN、目标检测、多光谱、MSI、HSI、CNN、LWIR和红外。这些关键字被组合在一起,以优化搜索结果,同时最大化相关结果。
只有同行评审的期刊文章、会议记录和来自知名来源的预印本被包括在这篇综述中。在收集了400篇研究论文后,Zotero中安装了一个软件包,根据引用次数过滤论文。选择相关性最大、引用次数最高的论文,确保收录高质量文献。在此步骤之后,保留200篇论文进行分析。然而,引用次数并不是最终的决定因素。尽管引用次数较低,但仍保留了2023-2024年最近发表的一些采用新颖方法的论文。
选定的论文被汇总到一个电子表格中,其中提取关键指标以分析文献中的出版趋势。我们从每篇选定的论文中提取信息,包括出版物详情、YOLO变体、多光谱传感器、采用的平台、检测到的目标类别、数据集类型、性能指标、关键发现和贡献。还构建了一个Python笔记本来从文献中提取关键字以创建n-gram图(图4B)。这种系统的数据提取允许对研究进行全面分析和比较,确保进行彻底的审查。根据方法和用例对选定的论文进行了分析,例如使用的多光谱传感器类型、应用领域、YOLO架构修改以及相对于以前方法的性能改进。这种分类有助于确定该领域的趋势和模式。特别注意解决现有多光谱目标检测法局限性的创新方法,为研究开辟了新的途径。
图4.量化传感器类型、载具平台以及本次调查中使用的最常用词汇。
总之,审查了200篇符合评估标准的论文,全面概述了基于YOLO的多光谱目标检测进展。这种系统的方法允许综合该领域的当前知识,确定关键趋势和挑战,并强调未来研究的有希望的方向。
3.YOLO的历史
A.YOLOv1
Joseph Redmon在2015年发布YOLOv1时彻底改变了计算机视觉[51]。与以前的CNN架构不同,比如AlexNET,它只做图像分类,或者R-CNN,它使用缓慢的两阶段检测方法,YOLO将目标检测视为单遍回归问题,使其既快速又计算高效[52],[53]。这种单程方法使实时目标检测成为现实。YOLO与其他CNN的区别在于能够使用单程回归来放置边界框和基于图像区域的类概率[54]。这种方法消除了传统的CNN过程,如单独的区域建议步骤,导致YOLO的性能明显快于计算效率低下的两级检测器,如R-CNN、Fast R-CNN和Faster R-CNN[52]、[54]、[55]。尽管YOLOv1具有提高推理速度的新颖概念,但其准确性仍然不如领先的Fast R-CNN模型。使用VOC 2007数据集,YOLOv1以每秒45帧(FPS)实现了64.4%的mAP,Fast RCNN以0.5 FPS实现了70%的mAP[56]。
图1说明了YOLO如何通过神经网络的单遍进行目标检测。该过程从网格分割开始,其中输入图像被划分为S × S网格(7 × 7)[57]。每个网格单元同时预测边界框位置以及相关联的置信度分数和检测到的目标的类别概率。每个检测框预测包括五个元素(x、y、w、h和置信度)[56]、[58]、[59]。x和y坐标是框相对于网格单元的中心,而宽度和高度是框相对于整个图像的相对位置。最后,置信度得分反映了模型对目标类存在和定位精度的确定性[56], [57]。
该网络以维数为S × S ×(B × 5+C)的张量的形式产生统一输出,随后是非最大抑制(NMS)以消除冗余检测[57], [60]。如图1所示,应用NMS来消除冗余检测,将输出细化到最可能和最准确的边界框。这种基于回归的输出允许YOLO进行简单快速的检测和分类,而不是传统的复杂模型,如采用单独分类和回归输出的Fast R-CNN[61]。尽管比传统CNN执行得更快,但与两级检测器相比,准确性仍然没有那么高[52]。
图1。YOLO如何对融合的RGB-LWIR图像实时进行目标检测和分类的简化图。
B.YOLOv2
在YOLOv1发布后不久,Redmon发布了YOLOv2,它建立在YOLOv1的架构之上,以darknet-19框架为特色,由19个卷积层和5个最大池化层组成[17],[62]。Redmon在他的论文中指出,YOLOv2在VOC 2007数据集上以67 FPS的速度实现了76.8%的mAP,优于R-CNN、ResNet和SSD[17]。YOLOv2引入了几项改进,包括用于解决内部协变量偏移的批量归一化、用于提高分类性能的高分辨率分类器、用于提高召回率的锚框卷积,以及许多其他改进[17]、[62]、[63]。
C. YOLOv3
Redmon和Farhadi在2018年发布了他们的最后一个YOLO版本YOLOv3[64]。YOLOv3相对于YOLOv2的主要进步是它使用了一个更深入的特征提取器,称为Darknet-53,这是对YOLOv2[64],[65]中以前使用的Darknet-19的实质性改进。此外,YOLOv3预测了三种不同尺度的边界框,其原理类似于特征金字塔网络,以帮助提高对各种大小目标的检测[66]。YOLOv3也采用维度聚类作为锚框,像YOLOv2一样,在每个尺度中预测三个框[67]。这导致了九个anchor[68]。综上所述,当应用于COCO数据集[64]、[69]、[70]时,与YOLOv2相比,这些增强将YOLOv3的检测准确性提高了惊人的13.9%。
D. YOLOv4, YOLOv5, 和PP-YOLO
YOLOv4和YOLOv5都是在2020年发布的。Bochovskiy等人发布的YOLOv4使用CSPDarknet-53作为主干,并在颈部增加了空间金字塔轮询(SPP)和路径聚合网络(PAN)[71]。YOLOv4的另一个改进是引入了马赛克数据增强技术,该技术将四个训练图像合并为一个。该技术改进了小目标的检测[71],[72]。Glenn Jocher发布的YOLOv5是以前YOLO版本的范式转变,因为它从Darknet过渡到PyTorch,提高了开发人员的可访问性和易用性[62],[73]。YOLOv5还实现了空间金字塔池快速(SPPF)层,取代了YOLOv4中使用的SPP层[74]。这允许将不同比例的特征汇集到一个固定的特征图中,从而提高推理速度[75]。此外,YOLOv5增加了额外的图像增强技术,包括随机仿射、混合、镶嵌和HSV增强[62]、[76]。2020年发布的最后一个YOLO变体是Long等人的PP-YOLO[77]。PP-YOLO是YOLOv3的修改,使用飞桨框架,不同于YOLOv5的PyTorch框架[78],[79]。PP-YOLO的目标是平衡CNN在实际应用中的有效性和效率[77]。PP-YOLO使用ResNet50-vd-dcn作为主干,而YOLOv5使用CSP[80]、[81]。PP-YOLO还使用不同于YOLOv5的不同优化