论文:《Fusion-Mamba for Cross-modality Object Detection》预印本
地址:https://arxiv.longhoe.net/abs/2405.01828
针对目标检测多模态融合领域,提出了一项基于Mamba与YOLO结合的目标检测模型框架(基于Mamba的backbone和YOLOv8的neck以及head结合)。他们的思路还是来源于UMNET中的VSS BlocK,在其基础上做很小的修改;另一个点就是首次将Mamba应用于多模态领域。
第一点:选择的跨模态融合是RGB加IR(普通的图像与红外图像相结合)。
第二点:文章的创新点主要为在借鉴YOLO的Backbone结构,设计了一种新的基于Mamba的多模态数据融合结构。(其中包含两个模块SSCS和DSSF分别用于浅层特征融合和深度特征融合)
第三点:工作量比较大,选用三个数据集(LLVIP, M3FD and FLIR)进行实验。并且在对比效果上达到了比较理想的提点效果。
上图所示是模型的整体结构,其中黄色框表示普通的卷积块。FMB使用的一个SSCS和多个DSSF。
简述SSCS和DSSF的作用:在SSCS中进行通道交互,之后分别利用VSS对新的图像进行特征提取(改善融合性能);DSSF模块进一步减少模态差异,通过双方向门控注意力在隐藏状态空间中进行特征融合,以增强融合特征的表示一致性(简而言之就是深层特征融合)。
作者主要的SOTA模型对比实验以及消融实验是在FLIR数据集上完成的。从实验结果上来看,确实取得了不错的检测精度,但多模态检测模型的参数量可能也是一个因素。
如有理解不对,恳请各位批评指正。