Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models-CSDN博客

本文链接：https://blog.csdn.net/xcy2014117129/article/details/135982623

Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models
红外图像可以获取到物体的热辐射，但容易受到噪声的影响，难以捕捉到纹理信息。相反，可见光图像通常包含丰富的结构和纹理信息，但容易受到光照和遮挡的影响。两者之间的互补性可以生成既包含热辐射又包含纹理信息的融合图像。可见光与红外图像融合的技术已经广泛应用于军事，目标检测与跟踪，人物重识别，语义分割等多种领域中。
红外与可见光的融合方法包括传统方法和基于深度学习的方法，其中传统方法包括基于稀疏表示的方法、基于多尺度变换的方法、基于子空间的方法、基于显著性检测的方法以及混合方法。尽管上述算法在大多数情况下可以满足特定场景的需求，但是人存在一些问题：1.现有的传统方法通常使用相同的方法来表达图像特征根，很少考虑可见光图像与红外图像的鲜明特征（这里是说两种图像存在不同的特征信息，但都采用一种方法去提取特征）。2.融合规则和测量需要手动设置，因此无法满足复杂场景的需求。
基于深度学习的图像融合方法可以分为三类：基于自动编码器的方法，基于卷积神经网络的方法以及基于生成对抗网络的方法。尽管现有的基于深度学习的融合方法能够实现令人满意的性能，但是仍有一些问题需要考虑：首先，现有的方法主要集中在如何保持红外图像的热目标以及可见光图像的背景纹理结构，而很少关注如何保留可见光的颜色信息。因为颜色可以反映物体的光谱，对于数字图像这是很重要的。颜色对于人们的认知、情感和行为有着重大影响，人类视觉系统对颜色（光谱）有着高度敏感性。因此，出来需要对提取和强度进行保真外还需要保持可见光图像的颜色。另一方面，如何在输入数据中提取多通道互补信息还有待进一步探索。现有的方法通常将存储在RGB三个通道的可见光图像从RGB空间转为画YCbCr空间，并使用Y通道进行融合，生成的单通道融合图像经过处理转化成三通道图像。但并非所有的通道都出现在输入数据中，因此很难构建多通道分布并提取多通道互补性，从而导致颜色失真。为了解决这些问题，该论文将可见光图像的三通道和红外图像的一通道组成的多通道数据输入到网络模型中，并通过扩散过程在潜在空间中构建多通道分布。解决了现有的方法大多集中在融合可见光图像中的纹理/梯度和红外图像中的强度，而不注意颜色信息的保存和多通道互补信息的提取。

模型结构：
在这里插入图片描述
将一通道的红外图像和三通道的可见光图像按照通道维度进行拼接，拼接后的图像数据为四通道。和DDPM的算法模型一样，在前向过程中是以T个时间步长不断地向拼接后的数据加入噪声，然后再反向过程中，噪声在T个时间步长内又不断地被消除。正向和反向过程训练扩散模型的目标是学习红外和可见光图像的联合潜在结构。
这里参考DDPM的扩散原理：
去噪网络模型的结构：去噪网络采用了SR3使用的U-Net网络结构。SR3主干网由收缩路径、扩散路径和扩散头组成。收缩路径和扩展路径由5个卷积层组成。扩散头包含了单个卷积层用来生成预测的噪声。
在对去噪网络进行训练后，使用去噪网络来提取多通道特征，在图像融合训练阶段，使用多通道梯度损失和强度损失进行训练。对于SR3的主干网络来说，其扩张路径包含了五个卷积层，输出的特征图大小长、宽依次减少一半。然后使用多通道融合模块将五个阶段输出的扩散特征进行融合，我们对其进行相加操作并输入到融合头中以生成融合图像。具体操作就是将相加后的特征通过3×3卷积、Leaky ReLU 和Tanh。网络架构为：
在这里插入图片描述
关于损失函数：
1.梯度损失：保持图像丰富的纹理信息。现有的梯度损失是为了单通道融合图像设计的，为了保持三通道融合图像的梯度信息，提出了多通道梯度损失LMCG，公式表示为：

其中I_f1、I_f2、I_f3为融合后的图像I_f的三个RGB通道，I_vis1、I_vis2、I_vis3表示输入的可见光图像I_vis的RGB三通道。

强度损失：热辐射通常是以像素强度为特征。融合图像应该与红外图像和可见光图像具有相似的强度分布。与梯度损失类似因此提出一种多通道损失函数LMCI，可表示为：

数据集：利用来自MSRS（该数据集包括1083对可见光和红外图像的训练对，361对测试图像）、RoadSense和M3FD数据集的彩色和红外图像对来评估所提出的框架。
实验平台：NVIDIA RTX3090 GPU
and 3.80 GHz Intel ® Core ™ i7-10700K CPU
对比实验：FusionGAN、SDDGAN、GANMc、SDNet、U2Fusion和TarDAL。
评价指标：定量评估中使用了六个统计指标，其中五个分别是虚拟信息（MI)、视觉信息保真度（VIF）、空间频率（SF）、Qabf和标准差（SD）。MI主要评估来自初始图像对的信息在融合图像中的聚合程度；VIF评估融合图像中存在的信息的保真度；SF用来测量组合数据中的空间频率相关信息；使用Qabf对来自源图像的边缘信息进行量化；SD主要评估合成图像的对比度；
最后论文还引入了ΔE，它是一种建立在CIELAB空间中的色差计算指数，被认为更符合人类感知系统，以量化融合图像和原始可见图像之间的颜色失真。ΔE是一种颜色距离测量。由于感知的不一致性，人眼对某些颜色比其他颜色更敏感，因此在颜色空间中直接测量的欧几里得距离与人类感知不匹配。因此将ΔE作为这些问题的解决方案，同时对中性色、亮度、色度、色调和色调旋转进行几种校正。值得注意的是，SF和DF直接在融合图像上就可以计算。其他评价指标需要原始图像才可以测量。除了ΔE的数值越小越好，其他五个评价指标都是越大越好。
后续会详细介绍该篇论文的代码