论文阅读《多模态结合Mamba模型》

每天都在深度学习

已于 2024-06-01 11:03:31 修改

阅读量2.1k

点赞数 12

分类专栏：论文阅读文章标签：论文阅读目标跟踪人工智能

于 2024-06-01 11:02:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58875151/article/details/139370678

版权

论文阅读专栏收录该内容

4 篇文章

订阅专栏

论文：《Fusion-Mamba for Cross-modality Object Detection》预印本

地址：https://arxiv.longhoe.net/abs/2405.01828

针对目标检测多模态融合领域，提出了一项基于Mamba与YOLO结合的目标检测模型框架（基于Mamba的backbone和YOLOv8的neck以及head结合）。他们的思路还是来源于UMNET中的VSS BlocK，在其基础上做很小的修改；另一个点就是首次将Mamba应用于多模态领域。

第一点：选择的跨模态融合是RGB加IR（普通的图像与红外图像相结合）。

第二点：文章的创新点主要为在借鉴YOLO的Backbone结构，设计了一种新的基于Mamba的多模态数据融合结构。（其中包含两个模块SSCS和DSSF分别用于浅层特征融合和深度特征融合）

第三点：工作量比较大，选用三个数据集（LLVIP, M3FD and FLIR）进行实验。并且在对比效果上达到了比较理想的提点效果。

上图所示是模型的整体结构，其中黄色框表示普通的卷积块。FMB使用的一个SSCS和多个DSSF。

简述SSCS和DSSF的作用：在SSCS中进行通道交互，之后分别利用VSS对新的图像进行特征提取（改善融合性能）；DSSF模块进一步减少模态差异，通过双方向门控注意力在隐藏状态空间中进行特征融合，以增强融合特征的表示一致性（简而言之就是深层特征融合）。

作者主要的SOTA模型对比实验以及消融实验是在FLIR数据集上完成的。从实验结果上来看，确实取得了不错的检测精度，但多模态检测模型的参数量可能也是一个因素。

如有理解不对，恳请各位批评指正。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。