0.论文摘要和信息
摘要
摘要:多光谱成像和深度学习已经成为支持从自动驾驶汽车到农业、基础设施监测和环境评估等各种用例的强大工具。这些技术的结合导致了非可见光光谱中目标检测、分类和分割任务的显著进步。本文共考虑了400篇论文,详细回顾了200篇,以提供多光谱成像技术、深度学习模型及其应用的权威元综述,考虑了YOLO方法的演变和适应。地面收集是最普遍的方法,占审查论文的63%,尽管用于YOLO多光谱应用的无人驾驶航空系统(UAS)自2020年以来翻了一番。最普遍的传感器融合是红-绿-蓝(RGB)与长波红外(LWIR),占文献的39%。YOLOv5仍然是适应多光谱应用的最常用变体,占所有修改后的YOLO模型的33%。58%的多光谱-YOLO研究是在中国进行的,研究质量与其他国家大致相似(平均期刊影响因子为4.45,而非来自中国机构的论文为4.36)。未来的研究需要集中在(i)开发能够处理不同光谱输入的自适应YOLO架构,而不需要广泛的架构修改,(ii)探索生成大型合成多光谱数据集的方法,(iii)推进多光谱YOLO迁移学习技术以解决数据集稀缺问题,以及(iv)创新与RGB和LWIR以外的其他传感器类型的融合研究。
索引术语:多光谱目标检测,YOLO,卷积神经网络(CNN),深度学习,RGB,LWIR,HSI,MSI,NIR,SAR。
1.引言
将多光谱传感器应用于深度学习算法已经成为无数应用的强大工具[1], [2], [3]。多光谱传感器捕获可见和不可见光谱的数据,提供关于环境的丰富信息[4]、[5]、[6]、[7]、[8]。这些传感器与深度学习算法相结合,如计算机视觉和目标检测模型,为非可见光谱中的任务自动化打开了大门[9]、[10]、[11]。这一领域正在带来重大进步,解决现实世界的问题并彻底改变行业[12]、[13]、[14]。随着经济实惠且紧凑的多光谱传感器和嵌入式深度学习系统开发的进展,它有可能使这些技术更广泛地可用,从而允许未来在资源有限的环境中大规模实施[15],[16]。
最流行、最快、易于部署的开源目标检测算法之一是YOLO[17]、[18]、[19]。自2015年成立以来,YOLO通过新的YOLO版本逐步推进了计算机视觉[20]。随着YOLO变体数量的增加,多光谱YOLO适应和应用的数量也在增加[21]、[22]、[23]。由于默认的YOLO算法针对红绿蓝(RGB)图像进行了优化,因此有大量的YOLO多光谱变体修改来增强检测和分类性能,特别是在人类和车辆目标类别中[24]、[25]、[26]、[27]、[28]。随着多光谱目标检测的发展,许多挑战仍然存在[29],[30]。这些包括对用于模型训练和评估的更广泛和多样化的多光谱数据集的需求,以及随着边缘设备种类以更实惠的成本增加,硬件的多光谱模型可解释性[31]、[32]、[33]。
在其诞生之初,关于多光谱传感器的文献始于用多光谱图像训练未经修改的YOLO模型,提供了使用多光谱传感器进行目标检测的基线比较结果[34]、[35]、[36]。随着YOLO的成熟,进行和合成多光谱特征提取的方法也有所进步[37]、[38]、[39]、[40]、[41]。在YOLO架构的主干、颈部和头部中添加了各种多光谱融合方法,例如创建用于融合红外和可见光图像的双流学习方法,以增强检测性能[42],[43]。多光谱YOLO应用在各个行业也在增长,包括农业部门,在农业部门可以检测特定的植被,如农业区的柑橘树或杂草[44]、[45]、[46]、[47]。多光谱YOLO的其他被高度引用的例子是通过优化能够感知小目标的多光谱YOLO模型,使用合成孔径雷达(SAR)和其他航空衍生图像来检测和跟踪船只[48]、[49]、[50]。
本文献综述旨在全面概述2020年至2024年多光谱目标检测的演变,重点分析YOLO卷积神经网络(CNN)的使用和适应。这篇综述还将确定与遥感应用结合YOLO神经网络自适应相关的增长趋势,以优化非可见光谱的检测性能。研究问题包括:
1.与默认的YOLO模型相比,YOLO架构的修改和增强如何影响其性能和多光谱成像应用的适应性?
2.在基于YOLO的多光谱目标检测的用例应用中,哪些传感器、采集平台和目标类正在增长?
3.基于YOLO的多光谱目标检测面临的主要挑战和未来的研究方向是什么?
本调查将遵循以下结构,按主题组织文献,并协助回答研究问题。第二节将讨论调查文献的方法。第三节将讨论YOLO的历史和演变,而第四节将总结和量化多光谱成像技术和平台。第五节将分析YOLO和多光谱之间的交叉主题。第六节将讨论用于多光谱目标检测的YOLO适配。然后,调查将在第七节中讨论多光谱YOLO应用中使用的数据集和评估指标。第八节将回到YOLO多光谱目标检测、该领域的挑战及其未来方向的讨论。最后,第九节将提供结束语。
2.文献调查方法
在这个快速发展的领域,这篇综述全面总结了2020年1月至2024年4月基于YOLO的多光谱目标检测的最新进展。我们根据研究问题评估了来自知名期刊的400篇论文,这些论文符合预先指定的条件。设计了一种用于识别、选择和分析相关文献的搜索方法,以确保一种彻底和系统的方法。最后,我们从知名期刊中选择了200篇前沿且被高度引用的论文。此外,保留了几篇新颖的非YOLO CNN目标检测研究论文,以比较YOLO以外的多光谱计算机视觉发展。
搜索策略侧重于指定时间范围内的出版物,利用主要的学术数据库,包括IEEE Xplore、Scopus、Web of Science和谷歌学术。搜索中使用的主要关键词是YOLO、CNN、目标检测、多光谱、MSI、HSI、CNN、LWIR和红外。这些关键字被组合在一起,以优化搜索结果,同时最大化相关结果。
只有同行评审的期刊文章、会议记录和来自知名来源的预印本被包括在这篇综述中。在收集了400篇研究论文后,Zotero中安装了一个软件包,根据引用次数过滤论文。选择相关性最大、引用次数最高的论文,确保收录高质量文献。在此步骤之后,保留200篇论文进行分析。然而,引用次数并不是最终的决定因素。尽管引用次数较低,但仍保留了2023-2024年最近发表的一些采用新颖方法的论文。
选定的论文被汇总到一个电子表格中,其中提取关键指标以分析文献中的出版趋势。我们从每篇选定的论文中提取信息,包括出版物详情、YOLO变体、多光谱传感器、采用的平台、检测到的目标类别、数据集类型、性能指标、关键发现和贡献。还构建了一个Python笔记本来从文献中提取关键字以创建n-gram图(图4B)。这种系统的数据提取允许对研究进行全面分析和比较,确保进行彻底的审查。根据方法和用例对选定的论文进行了分析,例如使用的多光谱传感器类型、应用领域、YOLO架构修改以及相对于以前方法的性能改进。这种分类有助于确定该领域的趋势和模式。特别注意解决现有多光谱目标检测法局限性的创新方法,为研究开辟了新的途径。
图4.量化传感器类型、载具平台以及本次调查中使用的最常用词汇。
总之,审查了200篇符合评估标准的论文,全面概述了基于YOLO的多光谱目标检测进展。这种系统的方法允许综合该领域的当前知识,确定关键趋势和挑战,并强调未来研究的有希望的方向。
3.YOLO的历史
A.YOLOv1
Joseph Redmon在2015年发布YOLOv1时彻底改变了计算机视觉[51]。与以前的CNN架构不同,比如AlexNET,它只做图像分类,或者R-CNN,它使用缓慢的两阶段检测方法,YOLO将目标检测视为单遍回归问题,使其既快速又计算高效[52],[53]。这种单程方法使实时目标检测成为现实。YOLO与其他CNN的区别在于能够使用单程回归来放置边界框和基于图像区域的类概率[54]。这种方法消除了传统的CNN过程,如单独的区域建议步骤,导致YOLO的性能明显快于计算效率低下的两级检测器,如R-CNN、Fast R-CNN和Faster R-CNN[52]、[54]、[55]。尽管YOLOv1具有提高推理速度的新颖概念,但其准确性仍然不如领先的Fast R-CNN模型。使用VOC 2007数据集,YOLOv1以每秒45帧(FPS)实现了64.4%的mAP,Fast RCNN以0.5 FPS实现了70%的mAP[56]。
图1说明了YOLO如何通过神经网络的单遍进行目标检测。该过程从网格分割开始,其中输入图像被划分为S × S网格(7 × 7)[57]。每个网格单元同时预测边界框位置以及相关联的置信度分数和检测到的目标的类别概率。每个检测框预测包括五个元素(x、y、w、h和置信度)[56]、[58]、[59]。x和y坐标是框相对于网格单元的中心,而宽度和高度是框相对于整个图像的相对位置。最后,置信度得分反映了模型对目标类存在和定位精度的确定性[56], [57]。
该网络以维数为S × S ×(B × 5+C)的张量的形式产生统一输出,随后是非最大抑制(NMS)以消除冗余检测[57], [60]。如图1所示,应用NMS来消除冗余检测,将输出细化到最可能和最准确的边界框。这种基于回归的输出允许YOLO进行简单快速的检测和分类,而不是传统的复杂模型,如采用单独分类和回归输出的Fast R-CNN[61]。尽管比传统CNN执行得更快,但与两级检测器相比,准确性仍然没有那么高[52]。
图1。YOLO如何对融合的RGB-LWIR图像实时进行目标检测和分类的简化图。
B.YOLOv2
在YOLOv1发布后不久,Redmon发布了YOLOv2,它建立在YOLOv1的架构之上,以darknet-19框架为特色,由19个卷积层和5个最大池化层组成[17],[62]。Redmon在他的论文中指出,YOLOv2在VOC 2007数据集上以67 FPS的速度实现了76.8%的mAP,优于R-CNN、ResNet和SSD[17]。YOLOv2引入了几项改进,包括用于解决内部协变量偏移的批量归一化、用于提高分类性能的高分辨率分类器、用于提高召回率的锚框卷积,以及许多其他改进[17]、[62]、[63]。
C. YOLOv3
Redmon和Farhadi在2018年发布了他们的最后一个YOLO版本YOLOv3[64]。YOLOv3相对于YOLOv2的主要进步是它使用了一个更深入的特征提取器,称为Darknet-53,这是对YOLOv2[64],[65]中以前使用的Darknet-19的实质性改进。此外,YOLOv3预测了三种不同尺度的边界框,其原理类似于特征金字塔网络,以帮助提高对各种大小目标的检测[66]。YOLOv3也采用维度聚类作为锚框,像YOLOv2一样,在每个尺度中预测三个框[67]。这导致了九个anchor[68]。综上所述,当应用于COCO数据集[64]、[69]、[70]时,与YOLOv2相比,这些增强将YOLOv3的检测准确性提高了惊人的13.9%。
D. YOLOv4, YOLOv5, 和PP-YOLO
YOLOv4和YOLOv5都是在2020年发布的。Bochovskiy等人发布的YOLOv4使用CSPDarknet-53作为主干,并在颈部增加了空间金字塔轮询(SPP)和路径聚合网络(PAN)[71]。YOLOv4的另一个改进是引入了马赛克数据增强技术,该技术将四个训练图像合并为一个。该技术改进了小目标的检测[71],[72]。Glenn Jocher发布的YOLOv5是以前YOLO版本的范式转变,因为它从Darknet过渡到PyTorch,提高了开发人员的可访问性和易用性[62],[73]。YOLOv5还实现了空间金字塔池快速(SPPF)层,取代了YOLOv4中使用的SPP层[74]。这允许将不同比例的特征汇集到一个固定的特征图中,从而提高推理速度[75]。此外,YOLOv5增加了额外的图像增强技术,包括随机仿射、混合、镶嵌和HSV增强[62]、[76]。2020年发布的最后一个YOLO变体是Long等人的PP-YOLO[77]。PP-YOLO是YOLOv3的修改,使用飞桨框架,不同于YOLOv5的PyTorch框架[78],[79]。PP-YOLO的目标是平衡CNN在实际应用中的有效性和效率[77]。PP-YOLO使用ResNet50-vd-dcn作为主干,而YOLOv5使用CSP[80]、[81]。PP-YOLO还使用不同于YOLOv5的不同优化技术,包括IoU损失、IoU感知、网格敏感性和SPP[82], [80]。相反,YOLOv5使用马赛克增强、自适应锚点倾斜和图像缩放等技术来优化模型[83], [84]。
E. YOLOR, YOLOX, 和 PP-YOLOV2
2021年,YOLOR、YOLOX和PP-YOLOv2发布。YOLOR(你只学习一种表征)是为多任务学习设计的[85],[86],[87]。YOLOR利用显性和隐性知识或数据观察和学习的潜在知识,允许模型跨任务捕获和共享语义信息[85],[88]。虽然以前的YOLO模型是为目标检测而设计的,但YOLOR专注于多任务,专为目标检测、实例分割、图像字幕和语义分割而设计[85]、[89]。
YOLOX由Ge等人于2021年发布[90]。与使用耦合头的YOLOv5不同,YOLOX使用解耦头进行分类和定位,提高了速度和性能[91]。此外,与YOLOv5不同,YOLOX采用无锚设计,简化了检测并减少了参数[62],[92]。YOLOX还使用了一种称为SimOTA的非传统标签分配,允许比YOLOv5的传统标签策略更动态和有效的标签策略[93]。SimOTA减少了训练时间,并将检测器性能从45.0%AP提高到47.3%AP[90]。2021年发布的最后一个YOLO变体是Huang等人的PPYOLOv2[94]。PP-YOLOv2建立在PPYOLO的基础上,进行了额外的修改,以提高性能和推理速度[95]。使用COCO数据集,PP-YOLO以72.9 FPS实现了45.9%的映射,而PP-YOLOv2以68.9 FPS实现了49.5%的映射[94]。PP-YOLOv2对原始版本有几处修改。首先,PPYOLOv2增加了路径聚合网络(PAN),增强不同尺度的特征融合[96]。Mish激活功能也被添加到PP-YOLOv2中[96],后来在YOLOv4和YOLOv5中被证明是有效的[97],[98]。然而,与YOLOv4和YOLOv5不同,PP-YOLOv2将Mish激活功能整合到颈部,保持主干不变[94],[99]。
F. YOLOv6, YOLOv7, DAMO-YOLO 和 PP-YOLOE
2022年,推出了YOLOv6、YOLOv7、DAMO-YOLO和PPYOLOE。YOLOv6由Li等人发布。并代表了YOLOv5[100]对YOLO架构的重大重新设计。YOLOv6的主干(EfficientRep)、颈部(Rep-PAN)和头部(解耦头部)都与YOLOv5的主干(CSP)、颈部(CSP)和头部(耦合头部)[100]、[101]、[102]不同。YOLOv6还利用了与YOLOv5的SimOTA不同的损失函数(变焦损失)和标签分配,称为任务对齐学习(TAL)[103]。YOLOv7由Wang等人发布。并对YOLOv6进行了几次修改[104]。YOLOv6强调工业应用的量化和模型部署,而YOLOv7更关注架构创新和训练策略以提高性能[105]。在COCO数据集上,YOLOv7E6E(56.8%)的最大AP比YOLOv6(43.1%)高13.7%[104]。与YOLOv6使用EfficientRep和CSPStackRep架构不同,YOLOv7引入了扩展高效层聚合网络(E-ELAN)架构[106]、[107]。
DAMO-YOLO也由Xu等人于2022年发布。并引入了无数的修改[108]。YOLOv7使用E-ELAN主干和neck,YOLOv6使用CSPStackREP主干,而DAMO-YOLO实现了MAE-NAS主干[21]、[108]。在分析性能时,DAMO-YOLO-M实现了67.2%的AP,而YOLOv6-M实现了66.8%的AP,YOLOv5M实现了64.1%的AP[108]。尽管这三种型号之间的AP非常相似,但DAMO-YOLO的参数比YOLOv6-M少,延迟减少了高达0.10毫秒[108]。最后,徐等人发布了PP-YOLOE。目的是建立在PP-YOLOv2的成功基础上,PP-YOLOv2主要用于工业应用[109]。PPYOLOE是一种无锚算法,与不同的硬件兼容,与其他YOLO变体相比,易于部署[110]。与使用基于锚的检测方法的PP-YOLOv2不同,PP-YOLOE使用无锚方法[109],[111]。PP-YOLOE还使用了与PP-YOLOv2不同的主干、颈部和头部,执行的mAP比PP-YOLOv2高1.9%,同时推理速度也提高了13.35%[109]。
G.YOLOv8, YOLOv9, AND YOLOv10
YOLOv8由Ultralytics于2023年发布,该公司也创建了YOLOv5[112]。根据Ultralytics创始人Glenn Jocher的说法,YOLOv8是YOLOv5的改进版本,使用了类似的主干,对CSPLayer进行了重大调整,现在在YOLOv8中称为C2fmodule[62],[113]。YOLOv7专注于优化目标检测性能,而YOLOv8专注于语义分割能力[114]。当针对COCO数据集进行测试时,YOLOv8实现了53.9%的映射,而YOLOv7实现了51.2%的映射[62]。同样在2023年发布,Deci开发了YOLO-NAS,旨在改善小目标的检测,同时优化每计算性能比[115]、[116]、[117]。这使得在边缘设备上更容易部署,并提高了定位精度[57]。与以前的YOLO模型不同,YOLO-NAS的架构是使用AutoNAC创建的,AutoNAC是由Desi[57],[118]创建的专有神经网络。YOLO-NAS还通过使架构适应硬件限制进行了优化,以便于在边缘设备上部署[119]。
YOLOv9由Wang等人于2024年发布,他是YOLOv7的同一创造者[120]。YOLOv9引入了一种新的架构,称为广义高效层聚合网络(GELAN)[121]。YOLOv7和YOLOv8在YOLOv9中的主要进步解决了通过神经网络传输过程中的数据丢失问题[122]。由于参数更少,与以前的YOLO模型相比,YOLOv9还提高了其易用性和效率,导致模型的计算强度低于以前的YOLO模型[120]、[123]。与YOLOv8-X相比,YOLOv9-E的参数减少了16%,导致计算量减少了27%,同时mAP提高了1.7%[120]。
最后,YOLOv10由Wang等人于2024年5月发布。来自清华大学[124]。YOLOv10的目标是减少后处理对NMS的依赖,由于延迟问题,后处理阻碍了YOLO在实际应用中的部署[124],[125]。不使用NMS使YOLOv10更容易部署,推理速度更快,适用于现实世界的应用[126]。YOLOv10-M与YOLO-9-M的映射(51.1%)匹配,同时参数少23%。YOLOv10优于所有YOLOv8变体1.2-1.4%的mAP,参数降低28-57%[25]。当比较YOLOv9和YOLOv10之间的模型性能时,两个YOLO版本具有相似的mAP性能。然而,由于YOLOv10不使用NMS,因此由于参数更少,它比YOLOv9更容易部署。
图2。描述2015年至2024年7月重要YOLO型号发布的时间表。
4.多光谱传感器和平台
由于能够捕获整个电磁频谱的可见和不可见数据,多光谱传感器在计算机视觉领域的使用正在增长[127]、[128]、[129]。图3可视化了电磁波谱,在图的底部具有以纳米(nm)为单位的光谱带和波长范围,而图的顶部列出了传感器与它们各自的光谱带对齐。从左侧开始,第一个光谱是紫外光,光谱带范围为100至400 nm[130]。在这次调查中,只有一篇论文使用紫外线传感器对太阳表面的太阳活动进行了目标检测[131]。下一个光谱带是可见光谱(RGB),其光谱范围为450 nm(蓝色)至750 nm(红色)[132]。在这项调查中,109项研究将RGB与其他沿红外光谱工作的传感器结合使用。RGB是一种流行的传感器,可以与其他不可见光谱相结合,因为它是使用最广泛和可用的传感器,以低成本提供高水平的图像细节[133], [134]。
图3.电磁波谱将我的传感器类型与其相应的光谱范围(以纳米(nm)为单位)进行了细分。
RGB之后是近红外(NIR)光谱,能够收集750至1400 nm之间的数据[135]。在这项调查中,12项研究使用NIR或RGB-NIR融合方法进行目标检测。NIR是红外光谱中的一个可靠波段,因为它能够在低能见度条件下工作,同时在长距离保持图像分辨率[136], [137], [138]。近红外之后是短波红外(SWIR)波段,工作在1400和3000纳米之间[139]。这篇综述中只有一项研究使用了融合的RGB-SWIR目标检测[140]。SWIR之后是中波红外(MWIR),范围从3000到8000 nm[141]。该调查不包括任何使用MWIR的用例示例。红外光谱的末端是长波红外(LWIR),其光谱范围为8000至14000 nm[142]。这项调查中的63项研究将LWIR或融合RGB-LWIR的组合用于目标检测应用。最后,调查中的五篇研究论文使用了合成孔径雷达,五篇论文中的三篇使用了改进的YOLOv5模型来更准确地识别基于卫星的合成孔径雷达图像中的小型船舶和船舶方向[48]、[143]、[144]。
A.多光谱成像(MSI)
当查看图1顶部的传感器列表时,多光谱成像(MSI)是在RGB和NIR波段内操作的第一个传感器。MSI传感器沿蓝色、绿色、红色、红边和红外波段收集数据[145]。红边是红色和近红外之间的窄带(中心在700-705 nm之间),通常用于确定植物健康和计算归一化差异红边(NDRE)指数[146], [147], [148]。相反,归一化差异植被(NDVI)指数是红色波段和近红外波段的组合,用于经常计算植被健康(650-860 nm)[6]。MSI主要用于确定植被健康状况,广泛用于农业食品行业[149]。虽然MSI传感器可以收集的光谱波段数量取决于相机规格,但天基MSI通常由13个波段组成[150]。
B.高光谱成像(HSI)
下一种传感器类型是高光谱成像(HSI)。在这项调查中,只有19项研究使用HSI进行目标检测。HSI的光谱范围为400–2500 nm,允许分析RGB、NIR和SWIR波长的数百个波段[151]。与MSI一样,HSI可以收集的频段数量取决于传感器规格。在这项调查中,收集的波段数量最多的HSI传感器来自Moffett野外数据集,有224个波段,范围从400到2500 nm[152]。
C.长波红外(LWIR)
在不可见光谱中使用的下一个也是最常见的传感器类型是LWIR。LWIR的其他名称是热红外(TIR)或前视红外(FLIR)[153]。由于多种原因,LWIR是用于多光谱目标检测的最广泛使用的传感器。首先,LWIR可以实时使用,允许几个实际应用,如自动驾驶[154], [155], [156]。其次,LWIR传感器提供的热数据可用作额外的独特边缘,供目标检测算法进行训练[34]。第三个原因是LWIR传感器在复杂的能见度条件下工作[157],[158]。LWIR传感器的成本也在稳步下降,使其越来越容易获得。最后,将RGB与LWIR融合提供边缘用于CNN模型训练的冗余和边缘增强,从而提高其性能并增加模型对不断变化的照明条件的弹性[159]。
D.用于传感器部署的载具
多光谱传感器可以从各种平台部署,例如地基系统、多旋翼、飞机和卫星,每个平台都有优点和局限性。例如,地基传感器提供高空间分辨率,但覆盖范围有限[160]。无人机和飞机等空中平台平衡了覆盖范围和分辨率,使其适用于精准农业和基础设施监测应用[161],[162]。卫星平台以较低的空间分辨率为代价提供了广泛的覆盖范围,使其可用于大规模环境监测和土地利用测绘[163]。多光谱成像技术和平台的期望选择取决于应用的要求。例如,农业或自动驾驶等精密任务受益于高分辨率地面传感器,而环境监测可能依赖于基于卫星的多光谱数据[164]、[165]、[166]。
E.地面传感器
在这项调查中,地基传感器是最常用的数据收集方法,有127项研究部署了地基传感器(图4A)。在地基传感器中,RGB传感器使用最广泛(78项研究),其次是LWIR(91项研究)。基于地面的RGB和LWIR应用以行人检测为中心,有59项关于LWIR人体检测的研究和50项关于RGB人体检测的研究(图7F)。此外,还有48项关于融合RGB-LWIR地基目标检测的研究。尽管LWIR传感器有许多优点,但它们具有低分辨率和基本的颜色特征[167]。因此,RGB和LWIR通常用于增强具有挑战性能见度条件的环境中目标检测的特征提取。已经有几个YOLO修改优化了地面图像中低分辨率热目标的检测[168]。这些修改主要用于复杂照明条件下的行人和车辆检测[169]、[170]、[171]。地基MSI和HSI主要用于农业和工业应用,如检测煤矸石、农产品中感兴趣的生物以及跟踪车辆[172]、[149]、[173]、[174]。
F.多旋翼无人机
多光谱目标检测中使用的下一个最常见的平台是多旋翼无人机,有36项研究使用了这种方法。多旋翼的主要优点是成本低,易于部署,并且可以很容易地用任务所需的各种传感器进行调制。MSI是部署在多旋翼上用于多光谱目标检测的最常用传感器类型(20项研究)。基于无人机的MSI的典型应用是用于农业目的,以检测特定的基于植物的目标类别,如杂草、植物传播疾病和植物物种识别[45]、[175]、[176]。在本次调查中,多旋翼用于多光谱目标检测的使用在2020年至2023年间翻了一番,这表明由于可使用性的提高,该平台的使用越来越多。
G.卫星
卫星是这项调查中第三个最常用的多光谱目标检测平台(29项研究)。高质量的MSI数据可从欧洲航天局的Sentinel-2和美国宇航局的Landsat计划等来源公开获得,允许无数的多光谱目标检测研究和应用[177],[178]。基于卫星的多光谱目标检测的挑战是分辨率低。因此,目标检测模型经常被修改以在呈现低分辨率数据时执行最佳。例如,LMO-YOLO是一种改进的YOLO CNN,旨在检测低分辨率卫星图像中的船只[179]。
H.飞机
最后,飞机是本次调查中使用最少的数据收集平台(12项研究)。它们使用率低的原因是收集多光谱数据的成本较高相对于开源卫星数据或低成本多旋翼方法。与卫星数据类似,飞机图像也存在分辨率低的问题。
I.多光谱传感器的进展和挑战
人们对开发低成本多光谱传感器越来越感兴趣,这些传感器可以小型化以部署在无人地面和空中系统上。这些传感器通常使用紧凑和轻便的光学器件,如微透镜阵列和二向色滤光器,以高空间和光谱分辨率捕获多光谱数据[180]。将这些传感器与嵌入式深度学习算法集成,可以在边缘实现多光谱数据的实时处理和分析。当连接到蜂窝网络(如5G网络)时,具有多光谱传感器的边缘设备的数据范围和处理速度可以通过集中式计算显著提高[181]。
多光谱目标检测的另一个关键发展是使用基于事件的传感器,其捕获场景中的时间变化。这种应用可用于在农业行业中进行实时植被胁迫检测[182]。将基于事件的传感器与深度学习算法相集成可以开发新的解决方案,例如在山区潜在的滑坡区域发生之前识别它们[183]。
尽管多光谱成像技术和平台取得了进步,但文献中提到了几个多光谱传感器挑战。主要挑战之一是由不同传感器和平台捕获的多光谱数据的对准、校准和配准[184], [185]。多光谱图像会受到各种因素的影响,如照明、传感器噪声、镜头失真和大气效应,这些因素会降低数据的质量和一致性[186], [187]。为了应对这一挑战,研究人员提出了各种校准和配准方法,如几何和辐射校准、图像融合和点云配准,这些方法可以提高多光谱数据的准确性和可靠性[185]、[188]、[189]。另一个挑战是大规模多光谱数据的存储和管理,这可能涉及大量的计算成本和存储资源[190]。
最后,当分析调查中发现的最常见单词时(图4B),单词检测是RGB、LWIR和MSI传感器最常见的单词。接下来的三个词,包括“图像”、“目标”、“多光谱”,几乎同样被发现。当分析谁在进行多光谱目标检测的优势时,图5可视化国家模型传感器类型的研究,而图6A在世界地图上绘制该数据,而图6B绘制主要作者在中国的家乡城市的位置。这两个数字都清楚地说明了中国学术机构在多光谱目标检测研究中占主导地位,在本次调查分析的200项研究中占116项(58%)。此外,中国正在领导改进多光谱应用YOLO算法的研究(83项研究中有65项是关于多光谱YOLO的)。
图5.可视化本次调查中分析的国家、型号和传感器类型。
图6.进行多光谱目标检测研究的地理概述。
5.贯穿各领域的主题
文献揭示了2020年至2024年基于YOLO的多光谱目标检测研究中的几个交叉主题。这些主题强调了这个快速发展的领域中不断发展的方法、挑战和机遇。主要的交叉主题是架构创新、检测小目标、特定领域的多光谱模型适应和实时应用的模型优化。
A.架构创新
文献中的一个主要主题是从以RGB为中心的默认YOLO模型到为多光谱应用优化的YOLO模型的架构修改的发展。已经开发了各种架构方法来从不同的光谱带中提取相关信息,特别是在RGB和LWIR光谱中。一种常见的方法是采用双流架构,其中神经网络中的单独分支处理不同的频谱输入。例如,邵等人提出了MOD-YOLO,它使用双流特征提取网络和基于transformer的跨模态谱多尺度特征融合模块 [169]。同样,Sun等人介绍了GMD-YOLO,其特点是双通道CSPDarknet53主干网,带有用于特征提取的Ghost模块[170]。这些双流方法允许在数据集成到颈部之前对主干中的每个模态进行专门处理。
另一个反复出现的架构创新是使用注意力机制进行自适应融合。Chen等人开发了TF-YOLO,它结合了transformer fusion模块来集成可见光和红外图像之间的关键特征[171]。这种方法允许模型动态地适应变化的照明条件。Bao等人提出了Dual-YOLO,它使用注意力融合和融合洗牌模块来减少冗余的融合特征信息,增强红外和可见光图像的互补特性[190]。
这些架构创新反映了对在自适应照明条件下有效处理实时多光谱数据的专用YOLO模型日益增长的需求。这些模型可以通过在YOLO神经网络内开发特定于模态的处理流和自适应融合机制,从不同的光谱带中提取和合成关键信息。
B.小目标检测
小目标的精确检测是多光谱目标检测中的一个重大挑战,特别是在机载遥感应用中。这个问题在低分辨率图像中加剧,例如从卫星或高空空中平台获得的图像,其中光谱分辨率可能成为一个问题。一些研究已经提出了对YOLO架构的修改,以增强小目标检测能力。
Pham等人介绍了YOLO-Fine,这是一种改进的YOLO架构,专门用于检测遥感图像中的小目标[49]。他们的方法包括改进检测网格和特征提取过程,以更好地处理小目标。同样,徐等人开发了用于低分辨率卫星图像中船舶检测的LMO-YOLO,结合了多次线性重新缩放和膨胀卷积,以增强小目标的特征提取[179]。Mou等人提出了YOLO-FR,这是一种基于YOLOv5的算法,使用特征重组采样方法来改善红外小目标的检测[168]。周等人介绍了YOLO-SASE,它将超分辨率技术与新型自适应挤压激励(SASE)模块相结合,以增强复杂背景中的小目标检测[191]。
这些方法展示了一个共同的主题,即调整YOLO架构以更好地处理多光谱成像中固有的规模和分辨率挑战,特别是对于小目标类别。通过融合多尺度特征融合、超分辨率和专门的注意力机制等技术,YOLO模型在各个光谱域的小目标检测的灵敏度和准确性将不断提高和进步。
C.特定领域的适应
文献还揭示了一种趋势,即利用各种条件下多光谱数据的独特特征,将YOLO模型应用于特定应用领域。这一主题在农业、基础设施监控和国防应用中最为明显。
几项研究设计了YOLO模型,该模型在农业中使用多光谱图像进行作物监测和害虫检测。Osco等人开发了一种在无人机多光谱图像中对柑橘树进行计数和地理定位的方法[44]。Osorio等人使用YOLO使用多光谱图像检测莴苣作物中的杂草[45]。这些研究证明了多光谱YOLO变体解决特定农业挑战的潜力,利用光谱信息改善作物管理和害虫控制。
在植物病害检测领域,Georgantopoulos等人。使用深度学习技术创建了一个多光谱数据集,用于番茄植物病害的早期检测,特别针对Tuta Absoluta和Leveillula Taurica[192]。鲁什等人将YOLOv5与多光谱成像应用于果园中的苹果黑星病检测,突出了深度学习与多光谱数据相结合用于早期疾病检测的潜力[173]。Park等人开发了一种多通道CNN模型,用于使用基于无人机的多光谱成像检测松树枯萎病,在识别患病树木方面实现了高性能[193]。
将YOLO变体与多光谱成像相结合在杂草和害虫控制应用中也显示出了前景。纳维德等人提出了一种基于显著性的语义模型,使用无人机的多光谱成像进行杂草检测和分类,提供了一种不需要大量训练数据的无监督方法[147]。Pansy和Murali利用无人机高光谱成像和先进的机器学习技术对芒果作物的病虫害进行早期检测和管理,展示了高维光谱数据在害虫控制中的潜力[175]。为了更好地进行农业规划和管理,沈等人采用YOLOv8和多光谱遥感来估计玉米种植密度[194]。Strz ę pek等人使用Detectron2在基于无人机的多光谱图像中进行目标检测和分割,从而实现全面的作物分析[195]。
研究人员还对YOLO进行了改造,以优化热和多光谱图像的检测,用于各种检查任务的基础设施监控。Chen等人提出了一种基于YOLOv5和多尺度数据增强的变电站视觉检测方法[196]。雷等人开发了一种Deeplab-YOLO方法,用于检测光伏面板红外图像中的热点缺陷[197]。这些应用展示了基于YOLO的方法在利用多光谱数据进行基础设施维护和安全方面的多功能性。
在国防和监视应用中,多项研究集中于将YOLO模型用于热成像和多光谱成像,以增强复杂和适应性条件下的检测能力。多光谱成像的集成,特别是RGB和LWIR传感器的组合,在提高各种军事和安全应用中的目标检测性能方面显示出巨大的前景。克里斯托等人(2020)探索了在雾和雨等具有挑战性的天气条件下使用YOLO进行热目标检测,旨在通过改进的自动人体检测来增强安全系统[34]。他们的研究表明,在热图像上重新训练的默认YOLOv3显著增强了在恶劣天气条件下检测人类的能力。
在伪装检测领域,Wang等人开发了一种基于深度学习的多光谱方法来检测伪装的人[198]。他们提出的MSYOLO模型实现了94.31%的mAP,并能够以65 FPS的速度进行实时检测,证明了在各种沙漠和森林场景中检测伪装个体的高效率。这项研究具有相关的军事应用,其中快速检测隐藏目标对任务成功至关重要。McIntosh介绍了一种新型网络TCRNet,该网络通过增强“目标杂波比”(TCR)[199]来优化在杂波红外成像环境中检测目标。这种为美国陆军开发的方法,与Faster R-CNN和YOLOv3等领先方法相比,检测概率显著提高了30%以上,假阳性率降低了2倍以上[199]。
Kwan和Gribben专注于使用深度学习技术改进远程和低质量红外视频中的目标检测,特别是解决目标尺寸小和视频质量差带来的挑战[200]。他们的工作也是为美国陆军进行的,实现了95%的敌方车辆检测准确率,展示了基于YOLO的方法在远程监视和目标捕获方面的潜力。
多光谱YOLO变体的应用也延伸到海上防御[201]。孙等人(2021)提出了一种新型BiFA-YOLO检测器,用于高分辨率SAR图像中任意方向的船舶检测,该检测器结合了双向特征融合和角度分类[48]。与其他深度学习方法相比,这种方法展示了强大的检测能力,具有更高的精确度和召回率,在海军监视和海上安全中提供了潜在的应用。
这些特定于领域的适应突出了YOLO架构在解决各个行业的各种多光谱目标检测挑战方面的灵活性。通过根据每个领域的具体要求和数据特征定制模型,研究人员正在不断推进多光谱目标检测领域,以供现实世界使用。
D.实时应用
文献中反复出现的主题是优化YOLO模型以提高实时多光谱目标检测应用中的性能和效率。这在特定领域尤其重要,例如时间限制需要快速检测的搜索和救援以及军事应用。一些研究已经提出了用于实时多光谱应用的YOLO的轻量级变体。李和叶开发了Edge-YOLO,这是一种轻量级红外目标检测模型,旨在部署在边缘设备上[202]。他们的方法显著降低了70.3%的计算需求,提高了44%的速度,同时保持了与默认YOLOv5相同的检测精度[202]。
E.中文在文献中的主导地位
该调查揭示了中国在多光谱目标检测方面的显著优势,特别是在基于YOLO的方法方面。在分析的200项研究中,116项(58%)来自中国,中国研究人员领导了83项研究中的65项(78%),这些研究专注于修改多光谱应用的YOLO算法。这种流行表明中国机构在推进实时多光谱目标检测技术方面的重大投资。此外,该领域的中国出版物的平均影响因子为4.45,略高于非中国作者的平均影响因子4.36。这种微小的差异表明,虽然中国的研究多产,但它在全球科学界也保持了具有竞争力的质量和影响力水平。
需要一种多方面的方法来解决美国多光谱目标检测研究中的差异。增加对研究机构和大学的资金分配,特别是对多光谱成像和目标检测的资金分配至关重要。这应该与促进学术界、工业界和政府机构之间的合作计划相结合,以加速创新和实际应用。加强计算机视觉、多光谱成像和相关领域的教育计划也将培养该领域必要的专业知识。此外,鼓励跨学科研究可以推动创新应用,特别是计算机视觉、传感器技术和农业、基础设施和国防等特定领域专家之间的合作。最后,简化将学术研究转化为商业和国防应用的流程将确保多光谱目标检测的进步迅速从理论过渡到实践。通过实施这些战略,美国可以努力缩小多光谱目标检测研究的差距,保持技术竞争力。
F.挑战和未来方向
文献还讨论了YOLO多光谱目标检测研究中的几个持续挑战和新兴方向。一个重大挑战是用于训练和评估的公开可用的带注释的多光谱数据集的有限选择。许多研究依赖于自定义数据集或改编现有的RGB数据集,这可能无法完全捕捉多光谱数据的复杂性。开发全面的、公开的多光谱数据集仍然是未来工作的一个重要领域。这一挑战将在讨论部分(第八节)中进一步详细讨论。
另一个挑战是来自不同光谱模态的数据的有效对准和配准。金等人通过提出一种用于鲁棒多光谱行人检测的不确定性引导跨模态学习方法来解决这个问题[184]。袁等人引入级联对准引导transformer来改善RGB-红外对准和融合[185]。这些研究强调了用于处理光谱输入之间的未对准和差异的稳健方法。
文献还指出,人们对将transformer架构纳入多光谱应用的YOLO模型越来越感兴趣,如Shao等人的工作所示和朱等人[206]、[169]。Transformers在改善跨光谱模态的特征融合方面显示出前景。Transformer架构正在成功地用于训练和运行大型语言模型(LLM),它们在计算机视觉领域的使用也在缓慢增长。
本节确定的交叉主题强调了基于YOLO的多光谱目标检测研究的不断发展的性质。该领域继续快速发展,从架构创新和特定领域的适应到性能优化和新出现的挑战
6.YOLO在多光谱目标检测中的演变
本节将讨论、分析和可视化YOLO神经网络在多光谱应用中的适应性。深度学习模型彻底改变了计算机视觉,实现了多光谱图像的自动分析和解释。各种深度学习架构,如CNN、YOLO、基于区域的CNN(R-CNN)和支持向量机(SVM),已被用于多光谱数据中的目标检测和分类任务[207]、[208]。YOLO等CNN由多层和卷积滤波器组成,它们学习从输入数据中提取相关特征[209]。
研究人员提出了对CNN的各种修改和增强,以提高其在多光谱数据上的性能。这些包括使用基于注意力的融合网络来充分提取和融合数据[210]。结合传感器特定的迁移学习方法也被用于解决训练多光谱模型的传统监督方法中的问题[211]。用于多光谱图像目标检测的深度学习最近的一个重要发展是使用基于Transformer的模型,如Vision Transformer(ViT)和MOD-YOLO[169], [212]。尽管transformers以其在大型语言模型中的使用而闻名,但它正开始被纳入目标检测中。
与CNN相比,Transformer模型在各种计算机视觉任务中表现出了卓越的性能,如图像分类、目标检测和语义分割[169]、[206]。transformer模型的成功可归因于它们捕捉数据中远程依赖性和信息的能力,这对于具有不同空间和光谱分辨率的多光谱图像尤为重要[213]。
A.YOLOv5适应
YOLOv5是一种一级目标检测算法,其利用主干网络进行特征提取,利用颈部进行特征融合,利用头部进行预测(图8A)。主干由多个卷积层(CBS和C3模块)组成,它们对输入图像进行下采样并提取不同尺度的特征。基于特征金字塔网络(FPN)和路径聚合网络(PANet),颈部融合了自上而下和自下而上两种路径中来自主干的多尺度特征。这将生成三种不同分辨率(P3、P4、P5)的特征图,用于检测各种大小的目标。最后,头部使用这些融合的特征图来预测类别概率、边界框坐标和目标置信度。头部由生成最终检测结果的卷积层组成。总体而言,骨干提取特征,颈部融合多尺度信息,头部在YOLOv5架构中进行最终预测。
在调查的37个YOLOv5多光谱适应中,有两个将被讨论,因为它们被引用的数量很高,并且为适应YOLOv5架构提供了创新的解决方案。选择的第一个YOLOv5适配是多光谱目标检测YOLO模型(MOD-YOLO)。MODYOLO(图8B)是一种为多光谱目标检测而设计的轻量级双流网络,由双流特征提取网络和基于transformerbased的跨模态光谱多尺度特征融合模块组成,称为跨级部分CFT(CSP-CFT)[169]。双流网络分别处理可见光图像和热图像,CSP-CFT模块有效融合提取的特征。其他改进包括网络头中用于优化的VoVGSCSP模块和用于增强检测精度的SIoU损失函数[169]。
与传统的单流YOLOv5不同,MODYOLO由于其双流架构和CSP-CFT模块,更适合多光谱目标检测。双流架构实现了可见和热图像特征的有效融合,利用了关键特征的提取和融合。这增强了MOD-YOLO在具有挑战性的低能见度场景中检测目标的能力,比YOLOv5高出4.8%的mAP[169]。
第二个最流行的YOLOv5多光谱变体是基于多级特征融合和双特征调制的多光谱目标检测(命名为GMDYOLO),这是一种为弱光环境设计的多光谱目标检测网络(图8C)。与MODYOLO一样,GMD-YOLO具有双流架构,由双通道CSPDarknet53主干组成,主干带有用于特征提取的Ghost模块和用于跨模态信息的多级特征融合(MLF)模块。GMD-YOLO还有一个双特征调制(DFM)解耦头,用于增强小目标的目标检测[170]。
与传统的单流YOLOv5架构不同,GMD-YOLO的双流架构将可见光和红外图像分开处理。MLF模块能够实现来自不同模态的有效多尺度特征融合。同时,DFM解耦头提供任务特定的特征表示,与默认的YOLOv5模型相比,其地图性能提高了3.6%[170]。
B.YOLOv7适应
YOLOv7是第二个修饰最多的YOLO变体。尽管YOLOv7是两种型号中较新的,但不一定更好。YOLOv5利用以CSPDarknet53为主干的焦点结构,而YOLOv7结合了扩展的高效层聚合网络(E-ELAN)和基于级联的模型的模型缩放。一项对YOLOv5和YOLOv7进行比较的研究揭示了它们的性能差异。YOLOv5在精度(62.6%对52.8%)、mAP@0.5(55.3%对51.5%)和mAP@0.5:0.95(34.2%对31.5%)方面优于YOLOv7,表明整体检测精度更好[214]。然而,YOLOv7表现出略高的召回值(56.4%对53.4%)[214]。当呈现由9,779张RGB图像组成的自定义数据集时,与YOLOv7相比,YOLOv5的准确性高出4%[214]。YOLOv5的优点包括其轻量级性质、更快的推理速度和更高的准确性,而YOLOv7在不增加推理成本的情况下提供了改进的实时目标检测准确性[214]。
图9A可视化了默认的YOLOv7架构。YOLOv7引入E-ELAN,在不破坏原始梯度路径的情况下增强网络的学习能力。E-ELAN修改计算块中的架构,同时保持过渡层架构不变[214]。除了保持原有的E-ELAN设计,YOLOv7引导不同的计算块组学习更多样的特征。此外,YOLOv7为基于级联的模型整合了一种模型缩放方法,该方法调整模型的特定属性以生成不同比例的模型,以满足不同的推理速度要求[21],[62]。
第一个为红外应用而修改的流行YOLOv7模型是基于Transformers融合的YOLO(TFYOLO),这是一个多模态检测网络,旨在识别各种照明环境下的行人[171]。TF-YOLO(图9B)的新颖之处在于其在照明条件下适应的能力,这是现有多光谱算法所缺乏的能力。像其他改进的多光谱YOLO变体一样,TF-YOLO使用双流骨干网络,使用Transformers融合模块来集成可见光和红外图像之间的关键特征[171]。Transformers融合模块允许TF-YOLO通过将来自高层的语义特征与来自低层的高分辨率特征相结合来适应不断变化的照明条件。与传统的YOLOv7架构相比,TFYOLO集成了用于处理可见光和红外图像的双流主干。TF-YOLO和其他多光谱YOLO修改之间的主要区别是使用了嵌入在双流主干中的transformer-fusion模块。通过自适应学习融合RGB和红外特征,TF-YOLO可以动态地使特征提取适应光照变化,优于YOLOv7VI 12.75%mAP,优于YOLOv7-IR 8.64%mAP[171]。
下一个被引用最多的多光谱YOLOv7模型是DualYOLO(图9C)。Dual-YOLO是一个基于YOLOv7的红外目标检测网络,它使用双分支主干、注意力融合和融合洗牌模块集成了可见光和红外图像特征[190]。Dual-YOLO减少了冗余融合特征,增强了红外和可见光图像的互补特性。Dual-YOLO引入注意力融合和融合洗牌模块,帮助减少冗余融合特征信息[190]。Dual-YOLO中的注意力融合模块还融合了Inception和SE模块,从而在不增加参数的情况下增强了红外和可见光图像的互补特性。融合洗牌模块采用扩张卷积和通道洗牌来增加感受野,使红外和可见光特征更加均匀[190]。双YOLO比YOLOv7-VI高3.3%mAP,比YOLOv7-IR高5.1%mAP[190]。
7.数据集和评估指标
用于多光谱目标检测的深度学习模型的开发和评估在很大程度上依赖于高质量数据集的可用性。文献中使用了几个公开可用的数据集。然而,尽管多光谱目标检测模型在架构上取得了进步,但主要限制之一是缺乏大型注释数据集来训练与RGB数据集相当的多光谱模型。与RGB数据集相比,用于训练和测试模型的多光谱数据集非常短缺[24]。收集和标记这种数据集可能既耗时又昂贵,尤其是对于需要专业知识的应用[159],[215]。
本调查中最常用的数据集是定制数据集(72项研究使用了定制数据集)。自定义数据集的主要好处是可以针对特定的传感器和目标类进行定制。这些定制数据集用于特定的检测任务,如农作物监测[146]、[182]、[192]、[195]、[216]和基础设施检查[196]、[197]、[217]。这些数据集是使用来自不同平台(如多旋翼无人机和地面系统)的多光谱传感器收集和管理的。尽管创建自定义数据集是劳动密集型的,但对于开发特定领域的多光谱模型至关重要,这些模型可以处理应用程序的独特挑战和要求。调查中定制数据集数量最多的传感器类型是LWIR和MSI(均有19项研究),其次是RGB-LWIR(14项研究),最后是RGB-NIR(8项研究)。为深度学习应用管理定制多光谱数据集的主要缺点是它是劳动密集型的。本调查中编纂的许多定制数据集的一个不足之处在于,一些研究人员没有公开他们的数据(本调查中的44项研究没有提供访问他们定制数据集的链接),导致无法复制和比较研究结果。
使用最广泛的开源数据集是KAIST多光谱行人检测数据集,在本次调查中被39项研究使用(图10)[218]。KAIST数据集是配对RGB热图像的基于地面的数据集。因为它被广泛使用,KAIST数据集被认为是一致评估多光谱模型的基准。KAIST数据集的另一个好处是它的大小,由95,000个彩色热图像对组成,用三个目标类(人、人和骑自行车的人)手动注释,总共有103,128个注释[218]。本次调查中下一个最常用的数据集是基于地面的Teledyne FLIR ADAS数据集,被22项研究使用。尽管FLIR数据集的图像明显少于KAIST数据集(只有26,442幅图像),但它具有更多的目标类别多样性[219]。FLIR数据集在其数据集中有520,000个边界框,主要由人、车辆、街道标志、交通灯和道路上看到的其他日常目标组成。FLIR数据集具有RGB和热图像的近乎均匀的分割,具有预先建议的训练/验证分割,以进行开箱即用的模型训练。
本次调查中使用的最常见的空中数据集是航空图像中的车辆检测(VEDAI),该数据集用于9项研究[220]。VEDAI数据集源自卫星图像,具有多个基于车辆的目标类,如汽车、卡车、轮船、货车、飞机和其他几种车辆类型。它有四个波段,由RGB和NIR组成[220]。
8.讨论
在我们对2020年至2024年基于YOLO的多光谱目标检测文献进行广泛检查后,我们对主要发现进行了综合。我们回到本调查开始时提出的三个研究问题,利用这一讨论为推进基于YOLO的多光谱目标检测提出建议。
1)与默认YOLO模型相比,YOLO架构的修改和增强如何影响其多光谱成像应用的性能和适应性?对YOLO架构的适应显著提高了其在多光谱成像应用中的功效和多功能性。最有希望的增强功能包括创建双流架构,结合注意力机制和transformer架构,以及开发用于处理多光谱数据的专用模块。以MOD-YOLO和GMDYOLO等模型为例的双流架构比传统的单流CNN方法显著提高了多光谱检测性能[169], [170]。这些设计在合并之前分别处理各种频谱输入,从而能够对每种模态进行专门处理。例如,MOD-YOLO比基线YOLOv5高出4.8%的mAP,而GMDYOLO比标准YOLOv5架构提高了3.6%的mAP。
集成注意力机制和transformer架构进一步增强了YOLO对多光谱数据的适应性。采用注意力融合模块的TF-YOLO展示了对不同光照条件的动态调整,比标准YOLOv7平均高出10.69%的mAP[171]。类似地,Dual-YOLO利用注意力融合和融合洗牌模块来最小化冗余特征信息,增强模型关注相关光谱特征的能力[190]。还开发了用于多光谱数据处理的专门模块,以解决多光谱目标检测中的具体挑战。例如,YOLO-FR引入了特征重组采样方法来增强红外小目标检测。同时,YOLOSASE将超分辨率技术与新型自适应挤压和激励模块相结合,以改善复杂环境中的小目标检测[168],[191]。这些修改导致了修改后的多光谱YOLO模型在多光谱目标检测任务中始终优于传统的YOLO架构。
2)在基于YOLO的多光谱目标检测的用例应用中,哪些传感器、采集平台和对象类正在增长?该综述确定了在基于YOLO的多光谱目标检测应用中利用各种传感器、平台和目标类别的几个趋势。人们明显倾向于组合RGB和LWIR传感器,有62项研究采用了这种组合。这一趋势是由LWIR提供热数据的能力推动的,为目标检测算法提供独特的边缘特征,并在各种能见度条件下保持有效性。RGB和LWIR数据的融合已经证明了在不同照明条件下增强检测性能的前景。此外,近红外传感器也越来越受欢迎,有14项研究使用该传感器[136]。在农业应用中尤其如此[182]。
关于收集平台,地面传感器使用最频繁,出现在127项研究中。然而,多旋翼无人机的使用有增加的显著趋势,有36项研究采用了该平台。2020年至2023年间,无人机用于多光谱目标探测的使用量翻了一番,反映出无人机的可及性和多功能性不断增强。虽然数量较少,但基于卫星的平台(29项研究)显示出有希望的结果,特别是对于大规模监测应用。飞机是利用最少的平台,仅出现在12项研究中。
基于YOLO的多光谱目标检测所针对的目标类别跨越各种应用。人类检测,尤其是行人,仍然是主要焦点,尤其是在自动驾驶和监控中[218],[219]。然而,这一趋势可能是由有限数量的开源多光谱数据集推动的。由于KAIST和FLIR数据集主要具有人类和车辆对象类别,因此这些自然是由多光谱模型训练和测试的主要对象类别。车辆检测是另一个突出的目标类别,尤其是在卫星和航空图像中[220]。在农业领域,人们对检测作物疾病、杂草和特定植物物种越来越感兴趣[44]、[45]、[192]。海事应用也关注船舶检测[48]、[179]、[203]、[221]。最后,使用多光谱目标检测的基础设施监测在文献[197], [222], [223]中也很普遍。
3)基于YOLO的多光谱目标检测面临的主要挑战和未来的研究方向是什么?尽管基于YOLO的多光谱目标检测取得了重大进展,但仍存在一些挑战。前面讨论的挑战是来自不同光谱传感器的数据的有效对准和配准[184], [185]。光谱输入之间的错位和不一致,例如视差和定时问题,会显著影响检测精度。虽然一些研究已经提出了解决方案,如Kim等人的不确定性引导跨模态学习方法。以及Yuan等人介绍的级联对准引导transformer。,这仍然是多光谱目标检测领域进一步研究的领域[184],[185]。
另一个挑战是这些模型的计算复杂性及其在实时应用中的约束[215]。许多研究提出了轻量级变体,如李和叶的Edge-YOLO,其中计算效率可以在保持模型性能的同时提高[202]。先前讨论的挑战是用于训练和评估多光谱模型的大规模、带注释的多光谱数据集的有限可用性。尽管有限的多光谱数据集允许对新的多光谱YOLO算法进行标准化测试,但它们限制了真实世界应用的模型测试。正因为如此,许多研究人员求助于创建自定义数据集,这既耗时又耗费资源。
9.未来研究方向
基于这些挑战,我们为该领域提出以下未来研究方向:
1)开发能够处理不同光谱输入的自适应YOLO架构,而不需要大量的架构修改:随着越来越多的系统使用计算机视觉实现自动化,必须设计能够在最少甚至没有人工输入的情况下适应复杂环境的轻量级可部署模型[224]。开发能够处理不同光谱输入而不需要大量架构修改的自适应YOLO架构是迈向更通用和高效的多光谱目标检测系统的关键一步。基于YOLO的多光谱目标检测的当前前景通常依赖于为特定光谱组合定制的专用架构。例如,MOD-YOLO和GMD-YOLO等模型采用双流架构在融合前分别处理RGB和LWIR输入。虽然有效,但这些方法需要显著的架构变化以适应不同的光谱输入,限制了它们的灵活性,并且需要针对新的光谱组合进行广泛的再训练。
为了解决这一限制,提出的解决方案是构建具有能够适应各种频谱输入的动态输入层的模块化YOLO架构。该架构可以采用一组光谱特定预处理模块,每个模块被设计成处理特定光谱带或范围。这些模块将把来自每个光谱带的输入转换成标准化的特征表示,然后可以将其馈送到公共YOLO主干网中。
这种方法的关键是设计一种灵活的融合机制,可以动态地组合来自不同光谱输入的特征。从TF-YOLO中使用的注意力机制中汲取灵感,可以实现一个自适应融合模型,该模型基于不同光谱输入与检测任务的相关性来学习权衡它们的贡献。这将允许模型有效地利用来自可用光谱带的任何组合的信息,而不需要架构重新设计。
为了增强模型处理不同输入的能力,可以实现神经架构搜索(NAS)来自动发现不同频谱组合的最佳子网络配置(类似于YOLO-NAS)[116]。这种方法可以导致对变化的光谱输入的更高效和有效的处理,同时保持一致的整体架构。用于不同频谱输入的自适应YOLO架构的开发代表了多光谱目标探测系统朝着更加通用和实用的方向迈出的重要一步。通过减少对不同光谱组合的广泛和持续的架构修改和再训练的需求,这些模型可以显著增强基于YOLO的方法在各个领域和传感平台上的适用性。然而,开发这种自适应架构的潜在挑战是在不增加模型复杂性和计算要求的情况下,在宽范围的频谱输入上保持性能。
2)探索生成具有更多可用对象类选择的大型合成多光谱数据集的方法:在讨论地图性能时,大多数研究论文使用有限的公开可用多光谱数据集(如KAIST和FLIR)来评估性能。然而,这可能会导致欺骗性的结果。例如,YOLOv8在公开可用的数据集上优于YOLOv5。然而,当针对自定义数据集进行测试时,YOLOv8的性能会下降,有时会落后于YOLOv5[224]。为了推进多光谱目标检测领域,必须采用新的实现来生成大型合成数据集。一种这样的方法是使用生成对抗网络(GAN)。GAN可以基于原始图像生成真实的数据集,并已被证明可以提高模型性能,同时显著减少收集和标记数据所需的资源[225],[226]。一项这样的研究使用GAN将YOLOv5的精确度和召回率提高了10%以上[227]。
可以添加用于生成模拟真实世界的精确合成数据集的方法是通过基于物理的模拟建模生成的合成数据。这种方法可以生成匹配不同环境或应用的合成数据集[228]。例如,可以使用GAD和基于物理的模拟建模来生成用于不同照明条件的合成数据集。这种数据多样性将允许性能更好且更具弹性的多光谱YOLO算法。
当为特定应用生成合成数据集时,域随机化技术也可用于创建真实数据。域随机化技术可以生成真实的合成数据,有助于缩小现实差距,从而提高模型性能[229], [230]。这种技术对于训练多光谱模型非常有益,因为照明、背景和目标位置等变量可以被操纵[231]。多模态转换技术也可用于进一步增强多光谱数据并提高YOLO模型性能[232]。这些技术可以应用于覆盖广泛对象类别的大规模RGB数据集,以扩展多光谱数据集中可用对象类别的选择。例如,包括80个对象类的COCO数据集可以用作生成多光谱等效数据集的基础。
这些方法的组合可以产生健壮和多样的合成数据集。此外,基于物理的模拟可以为生成真实的光谱特征提供强大的基础,而GANs和域随机化技术可以引入必要的可变性来创建不同的训练数据集。关键的挑战将是确保生成的数据准确地代表不同光谱带和现实世界环境之间的复杂相互作用。
为合成多光谱数据集开发标准化的评估指标和验证技术至关重要。这将有助于确保在合成数据上训练的模型很好地转移到现实世界的场景中。计算机视觉研究人员与光谱学和遥感领域专家之间的合作对于创建高质量、物理上精确的合成数据集至关重要。
3)推进多光谱YOLO迁移学习技术解决数据集稀缺性:推进多光谱YOLO迁移学习技术解决数据集稀缺性是基于YOLO的多光谱目标检测的重要研究方向。有限的可用注释多光谱数据集已经被确定为一个问题,迁移学习提供了一种有前途的方法来缓解这个问题。迁移学习可用于利用从在更丰富的数据源(如RGB图像)上训练的模型中获得的知识来提高多光谱模型的性能。
多光谱YOLO迁移学习的一种策略是在大型RGB数据集上预训练模型,然后在较小的多光谱模型上对其进行微调。通过转移从RGB数据学习的权重,多光谱模型可以在适应多光谱数据的特定特征之前受益于一般特征表示。
将注意力机制和transformer架构整合到迁移学习过程中也可以产生显著的改进。像TFYOLO这样的模型的成功表明,类似的方法可以增强不同光谱域之间的知识转移。这些架构可以学习更健壮和适应性更强的特征表示,这些特征表示可以很好地概括不同的光谱输入。迁移学习的另一种方法是开发模块化架构,这些架构可以在单个光谱带上进行预训练,并组合用于多光谱任务。这种方法将允许更灵活和有效的迁移学习,因为可以根据多光谱任务的具体要求选择性地微调或替换模块。此外,探索元学习技术可以使YOLO模型学习如何在数据有限的情况下快速适应新的光谱域,有可能更直接地解决数据集稀缺问题[233]。
此外,为多光谱数据开发无监督或自监督学习技术也有助于解决数据集稀缺问题。通过利用多光谱数据中的结构和关系,模型可以学习有意义的表示,而无需严重依赖带注释的数据集。这些预先训练的表示可以是各种多光谱目标检测任务中迁移学习的坚实基础。在多光谱YOLO模型的背景下,也值得考虑少镜头学习技术的潜力[234]。鉴于少镜头学习在其他计算机视觉任务中的成功,将这些方法应用于多光谱对象检测可以使模型能够以最少的标记示例推广到新的对象类别或光谱域[235]。
推进多光谱YOLO迁移学习技术为解决数据集稀缺提供了一条有前途的途径。该领域可以通过建立现有的迁移学习方法、结合特定领域的适应以及探索新的架构和学习范式来更高效和有效地使用现有的有限多光谱数据。这反过来将有助于在各种应用和行业中更广泛地采用基于YOLO的多光谱目标检测并提高其性能。
4)推进与RGB和LWIR之外的其他传感器类型的融合研究:探索与RGB和LWIR之外的传感器类型的融合代表了推进基于YOLO的多光谱目标检测的一个有前途的前沿。虽然RGB和LWIR的组合已经被广泛研究并被证明是有效的,正如其在本综述中的62项研究中的流行所证明的那样,但有可能进一步整合来自其他传感器类型的数据,以增强更广泛应用和环境条件的检测能力。
鉴于NIR在农业应用中的应用,将NIR与RGB融合显示出希望。近红外光谱对植被健康和含水量很敏感,这使得它对精准农业和环境监测很有价值。将NIR数据与RGB和LWIR融合可以提供更全面的理解,有可能提高植被相关任务的检测精度。
然而,文献中存在一个显著的差距,因为需要更多的研究来量化融合给定环境和时间因素的最佳传感器。需要更多的研究来确定什么样的传感器组合最适合特定的环境,以及在给定外部变量(如照明、地面温度、气候、目标类别和其他几个因素)的情况下,两个传感器模式之间应该发生多少融合[236]。结合来自多个传感器的基于时间的融合方法可以增强动态环境中移动目标和小目标的检测。
未来的研究应侧重于为多传感器融合开发高效、可扩展的架构,并创建包含各种传感器类型的合成或半合成数据集,从而允许广泛的融合测试。正如上一节所讨论的,迁移学习技术也可以在利用来自更常见融合方法的知识来提高不太常见测试的传感器组合的性能方面发挥重要作用。
10.总结
这项对2020年至2024年基于YOLO的多光谱目标检测的全面调查揭示了该领域在架构创新、特定领域适应和性能优化的推动下取得的重大进步。对来自知名期刊的200篇论文的综述强调了这个快速发展的领域的几个关键趋势和挑战。中国研究机构在该领域的研究主导地位是显而易见的,58%的研究来自中国,83项多光谱YOLO修饰研究中有65项也来自中国。研究工作的这种地理集中强调了更广泛的国际合作的必要性,以使多光谱物体探测的观点和应用多样化。
尽管YOLO多光谱取得了进步,但仍存在一些挑战。大规模、带注释的多光谱数据集的有限可用性仍然是一个重大瓶颈,36%的研究依赖于定制数据集。这种稀缺性阻碍了新算法的可重复性和标准化评估。
未来的研究方向应侧重于开发能够处理不同光谱输入而无需大量修改的自适应YOLO架构,探索生成大型合成多光谱数据集的方法,推进迁移学习技术以解决数据集稀缺问题,以及研究与RGB和LWIR以外的传感器类型的融合策略。这些努力对于推进多光谱目标检测领域并扩展其在各个行业和领域的应用至关重要。
实时多光谱目标检测领域将在多个行业中发挥越来越重要的作用。解决已确定的挑战和追求推荐的研究方向将进一步推进这些模型的发展,在广泛的领域中开启计算机视觉和物体检测的新可能性。