论文阅读《多模态结合Mamba模型》

论文:《Fusion-Mamba for Cross-modality Object Detection》预印本

地址:https://arxiv.longhoe.net/abs/2405.01828

        针对目标检测多模态融合领域,提出了一项基于Mamba与YOLO结合的目标检测模型框架(基于Mamba的backbone和YOLOv8的neck以及head结合)。他们的思路还是来源于UMNET中的VSS BlocK,在其基础上做很小的修改;另一个点就是首次将Mamba应用于多模态领域。

        第一点:选择的跨模态融合是RGB加IR(普通的图像与红外图像相结合)。

        第二点:文章的创新点主要为在借鉴YOLO的Backbone结构,设计了一种新的基于Mamba的多模态数据融合结构。(其中包含两个模块SSCS和DSSF分别用于浅层特征融合和深度特征融合)

        第三点:工作量比较大,选用三个数据集(LLVIP, M3FD and FLIR)进行实验。并且在对比效果上达到了比较理想的提点效果。

        上图所示是模型的整体结构,其中黄色框表示普通的卷积块。FMB使用的一个SSCS和多个DSSF。

        简述SSCS和DSSF的作用:在SSCS中进行通道交互,之后分别利用VSS对新的图像进行特征提取(改善融合性能);DSSF模块进一步减少模态差异,通过双方向门控注意力在隐藏状态空间中进行特征融合,以增强融合特征的表示一致性(简而言之就是深层特征融合)。

        作者主要的SOTA模型对比实验以及消融实验是在FLIR数据集上完成的。从实验结果上来看,确实取得了不错的检测精度,但多模态检测模型的参数量可能也是一个因素。 

        如有理解不对,恳请各位批评指正。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值