TPAMI 2025 | MulFS-CAP：用于未配准红外 - 可见图像融合的多模态融合监督跨模态对齐感知方法_mulfs-cap: multimodal fusion-supervised cross-moda-CSDN博客

本文链接：https://blog.csdn.net/weixin_58753619/article/details/146472164

论文信息

题目：MulFS-CAP: Multimodal Fusion-supervised Cross-modality Alignment Perception for Unregistered Infrared-visible Image Fusion

MulFS-CAP：用于未配准红外 - 可见图像融合的多模态融合监督跨模态对齐感知方法

源码：https://github.com/YR0211/MulFS-CAP

背景

在军事监视、自动驾驶等众多领域，红外和可见图像融合技术至关重要。由于两种图像成像机制不同，融合它们能获取更全面的场景信息。但现实中获取的图像常未配准，传统融合方法多基于配准图像，难以直接应用。为此，“MulFS-CAP: Multimodal Fusion-supervised Cross-modality Alignment Perception for Unregistered Infrared-visible Image Fusion”一文提出了MulFS-CAP方法，为未配准红外-可见图像融合带来新突破。

一、创新点解读

（一）单阶段融合框架创新

传统未配准图像融合采用两阶段方法，先配准再融合，流程复杂且参数化多。MulFS-CAP提出单阶段融合框架，通过共享浅层特征编码器，让融合与配准在一个阶段内完成，简化流程，减少参数，为研究开辟新方向。图1传统两阶段方法（a）与MulFS-CAP单阶段框架（b）对比

（二）一致特征学习方法创新

引入可学习的模态字典，开发CFLC-MD方法。利用模态字典为单模态特征提供互补信息，有效消除红外和可见图像特征之间的模态差异，实现一致特征学习，满足跨模态图像配准要求。图5 CFLC-MD方法示意图

（三）跨模态对齐感知机制创新

构建相关矩阵描述源图像像素关系，通过划分感知区域和设计多头跨尺度聚合块（MHCSAB），融合多尺度局部信息，增强像素辨别能力，建立精确的像素对应关系，纠正特征失真，优化融合过程，提升融合图像质量。图7 多头跨尺度聚合块（MHCSAB）示意图

二、方法剖析

（一）整体架构

MulFS-CAP由特征提取与融合（FEF）、通过模态字典补偿的一致特征学习（CFLC-MD）和特征重组与融合（FRF）三个主要组件构成。该架构利用两对源图像，其中每对图像内部精确配准，但交叉对未配准，以此用已配准图像对监督未配准图像对的特征提取和对齐。图2 MulFS-CAP整体架构示意图

（二）特征提取与融合

特征编码器包含基本特征提取（BFE）块、IR/VIS特征提取（IR/VIS-MFE）块和感知对齐特征提取（PAFE）块。BFE块提取浅层特征，IR/VIS-MFE块获取互补深度特征，PAFE块通过共享参数提取用于后续流程的特征。为保证特征质量，引入一致性损失。在特征融合环节，将PAFE块提取的红外和可见特征相加后经特定块处理得到融合输出，并引入损失约束其质量。图3 特征提取器详细结构示意图图4 特征融合过程示意图

（三）一致特征学习

由于红外和可见图像模态差异大，直接对齐困难。CFLC-MD方法使用模态字典补偿单模态特征缺失信息。它由跨模态表示块（CMRB）和可学习的IR/VIS模态字典组成。通过一系列计算得到补偿后的单模态特征，同时利用特征级互相关（FCC）和基于范数的一致性损失来学习模态字典，确保补偿后的特征与融合特征对齐，减少模态差异。

（四）特征重组与融合

先划分感知区域，将参考特征和被查询特征分别划分成不同大小的块和窗口，以便在局部区域内高效搜索对应像素。图6 感知区域划分示意图接着，利用MHCSAB块整合多尺度信息增强像素特征表达，计算得到对齐感知矩阵，并使用相对对应损失和绝对对应损失优化。最后，根据对齐感知矩阵重组特征，将重组后的红外特征与可见特征相加后经特定块处理得到融合结果，同时用梯度一致性损失和内容一致性损失保证融合有效性。整个方法通过总损失函数平衡各部分的训练。图8 融合过程示意图

三、实验验证

（一）实验设置

使用RoadScene1、LLVIP和MSIFT三个数据集，按标准协议随机划分训练集和测试集，并在训练过程中对图像引入随机变形构建未配准图像对。采用端到端训练方法，在NVIDIA GeForce RTX 4090 GPU上基于PyTorch框架实现，设置批量大小、训练周期、优化器、学习率及超参数等。

（二）评估指标

使用交叉熵（）、峰值信噪比（）等八个广泛认可的图像融合评估指标，全面客观地评估融合结果质量。这些指标从信息分布差异、图像质量、边缘细节保留等多个角度进行衡量，且部分为正向指标，部分为反向指标。

（三）对比实验

将MulFS-CAP与12种前沿方法对比，分为三组实验。第一组直接用未配准图像对比较，结果显示MulFS-CAP有效纠正失真、减少伪影，视觉效果更好，且在评估指标上均值大、稳定性高。图9 直接融合未配准图像的融合结果对比图10 直接融合未配准图像评估指标箱线图第二组先使用CrossRAFT配准再融合，MulFS-CAP在保留细节和特征对齐方面更优，且性能更稳定。图11 “配准 + 融合”方法融合结果视觉效果对比图12 “配准 + 融合”方法定量性能箱线图第三组与专门处理未配准图像融合的方法比较，MulFS-CAP在所有评估指标上表现更优，尤其在指标上优势明显。图13 与未配准图像融合方法定性结果对比图14 与未配准图像融合方法定量结果箱线图

四、研究展望

MulFS-CAP在未配准红外-可见图像融合上取得良好效果，但应用于其他类型图像融合（如多聚焦图像融合）时，可能因训练集和测试集的域转移导致性能下降。未来研究方向是在具有域泛化能力的单阶段统一框架内，融合多种未配准源图像，如多聚焦图像、医学图像和遥感图像，拓展该技术的应用范围。

MulFS-CAP通过创新的框架、方法和机制，有效解决未配准红外-可见图像融合难题，在实验中展现出卓越性能，为该领域发展提供了重要参考，其未来研究方向也极具潜力，有望进一步推动图像融合技术的发展和应用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述