Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models

Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models
红外图像可以获取到物体的热辐射,但容易受到噪声的影响,难以捕捉到纹理信息。相反,可见光图像通常包含丰富的结构和纹理信息,但容易受到光照和遮挡的影响。两者之间的互补性可以生成既包含热辐射又包含纹理信息的融合图像。可见光与红外图像融合的技术已经广泛应用于军事,目标检测与跟踪,人物重识别,语义分割等多种领域中。
红外与可见光的融合方法包括传统方法和基于深度学习的方法,其中传统方法包括基于稀疏表示的方法、基于多尺度变换的方法、基于子空间的方法、基于显著性检测的方法以及混合方法。尽管上述算法在大多数情况下可以满足特定场景的需求,但是人存在一些问题:1.现有的传统方法通常使用相同的方法来表达图像特征根,很少考虑可见光图像与红外图像的鲜明特征(这里是说两种图像存在不同的特征信息,但都采用一种方法去提取特征)。2.融合规则和测量需要手动设置,因此无法满足复杂场景的需求。
基于深度学习的图像融合方法可以分为三类:基于自动编码器的方法,基于卷积神经网络的方法以及基于生成对抗网络的方法。尽管现有的基于深度学习的融合方法能够实现令人满意的性能,但是仍有一些问题需要考虑:首先,现有的方法主要集中在如何保持红外图像的热目标以及可见光图像的背景纹理结构,而很少关注如何保留可见光的颜色信息。因为颜色可以反映物体的光谱,对于数字图像这是很重要的。颜色对于人们的认知、情感和行为有着重大影响,人类视觉系统对颜色(光谱)有着高度敏感性。因此,出来需要对提取和强度进行保真外还需要保持可见光图像的颜色。另一方面,如何在输入数据中提取多通道互补信息还有待进一步探索。现有的方法通常将存储在RGB三个通道的可见光图像从RGB空间转为画YCbCr空间,并使用Y通道进行融合,生成的单通道融合图像经过处理转化成三通道图像。但并非所有的通道都出现在输入数据中,因此很难构建多通道分布并提取多通道互补性,从而导致颜色失真。为了解决这些问题,该论文将可见光图像的三通道和红外图像的一通道组成的多通道数据输入到网络模型中,并通过扩散过程在潜在空间中构建多通道分布。解决了现有的方法大多集中在融合可见光图像中的纹理/梯度和红外图像中的强度,而不注意颜色信息的保存和多通道互补信息的提取。

模型结构:
在这里插入图片描述
将一通道的红外图像和三通道的可见光图像按照通道维度进行拼接,拼接后的图像数据为四通道。和DDPM的算法模型一样,在前向过程中是以T个时间步长不断地向拼接后的数据加入噪声,然后再反向过程中,噪声在T个时间步长内又不断地被消除。正向和反向过程训练扩散模型的目标是学习红外和可见光图像的联合潜在结构。
这里参考DDPM的扩散原理:
去噪网络模型的结构:去噪网络采用了SR3使用的U-Net网络结构。SR3主干网由收缩路径、扩散路径和扩散头组成。收缩路径和扩展路径由5个卷积层组成。扩散头包含了单个卷积层用来生成预测的噪声。
在对去噪网络进行训练后,使用去噪网络来提取多通道特征,在图像融合训练阶段,使用多通道梯度损失和强度损失进行训练。对于SR3的主干网络来说,其扩张路径包含了五个卷积层,输出的特征图大小长、宽依次减少一半。然后使用多通道融合模块将五个阶段输出的扩散特征进行融合,我们对其进行相加操作并输入到融合头中以生成融合图像。具体操作就是将相加后的特征通过3×3卷积、Leaky ReLU 和Tanh。网络架构为:
在这里插入图片描述
关于损失函数:
1.梯度损失:保持图像丰富的纹理信息。现有的梯度损失是为了单通道融合图像设计的,为了保持三通道融合图像的梯度信息,提出了多通道梯度损失LMCG,公式表示为:
在这里插入图片描述
其中If1、If2、If3为融合后的图像If的三个RGB通道,Ivis1、Ivis2、Ivis3表示输入的可见光图像Ivis的RGB三通道。

  1. 强度损失:热辐射通常是以像素强度为特征。融合图像应该与红外图像和可见光图像具有相似的强度分布。与梯度损失类似因此提出一种多通道损失函数LMCI,可表示为:
    在这里插入图片描述
    数据集:利用来自MSRS(该数据集包括1083对可见光和红外图像的训练对,361对测试图像)、RoadSense和M3FD数据集的彩色和红外图像对来评估所提出的框架。
    实验平台:NVIDIA RTX3090 GPU
    and 3.80 GHz Intel ® Core ™ i7-10700K CPU
    对比实验:FusionGAN、SDDGAN、GANMc、SDNet、U2Fusion和TarDAL。
    评价指标:定量评估中使用了六个统计指标,其中五个分别是虚拟信息(MI)、视觉信息保真度(VIF)、空间频率(SF)、Qabf和标准差(SD)。MI主要评估来自初始图像对的信息在融合图像中的聚合程度;VIF评估融合图像中存在的信息的保真度;SF用来测量组合数据中的空间频率相关信息;使用Qabf对来自源图像的边缘信息进行量化;SD主要评估合成图像的对比度;
    最后论文还引入了ΔE,它是一种建立在CIELAB空间中的色差计算指数,被认为更符合人类感知系统,以量化融合图像和原始可见图像之间的颜色失真。ΔE是一种颜色距离测量。由于感知的不一致性,人眼对某些颜色比其他颜色更敏感,因此在颜色空间中直接测量的欧几里得距离与人类感知不匹配。因此将ΔE作为这些问题的解决方案,同时对中性色、亮度、色度、色调和色调旋转进行几种校正。值得注意的是,SF和DF直接在融合图像上就可以计算。其他评价指标需要原始图像才可以测量。除了ΔE的数值越小越好,其他五个评价指标都是越大越好。
    后续会详细介绍该篇论文的代码
  • 21
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Faster R-CNN是一种基于区域建议网络(Region Proposal Networks,RPN)的物体检测算法,旨在实现实时物体检测。它通过预测每个区域是否含有物体来生成候选框,并使用卷积神经网络(CNN)来确定候选框中的物体类别。Faster R-CNN在提高检测精度的同时,也显著提高了检测速度。 ### 回答2: 在计算机视觉领域中,目标检测一直是热门研究的方向之一。近年来,基于深度学习的目标检测方法已经取得了显著的进展,并且在许多实际应用中得到了广泛的应用。其中,Faster R-CNN 是一种基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法,在检测准确率和速度之间取得了很好的平衡,能够实现实时目标检测。 Faster R-CNN 的基本框架由两个模块组成:区域建议网络(RPN)和检测模块。RPN 主要负责生成候选目标框,而检测模块则利用这些候选框完成目标检测任务。具体来说,RPN 首先在原始图像上以多个尺度的滑动窗口为基础,使用卷积网络获取特征图。然后,在特征图上应用一个小型网络来预测每个位置是否存在目标,以及每个位置的目标边界框的坐标偏移量。最终,RPN 根据预测得分和位置偏移量来选择一部分具有潜在对象的区域,然后将这些区域作为候选框送入检测模块。 检测模块的主要任务是使用候选框来检测图像中的目标类别和位置。具体来说,该模块首先通过将每个候选框映射回原始图像并使用 RoI Pooling 算法来获取固定大小的特征向量。然后,使用全连接神经网络对这些特征向量进行分类和回归,以获得每个框的目标类别和精确位置。 相比于传统的目标检测方法,Faster R-CNN 具有以下优点:首先,通过使用 RPN 可以自动生成候选框,避免了手动设计和选择的过程;其次,通过共享卷积网络可以大大减少计算量,提高效率;最后,Faster R-CNN 在准确率和速度之间取得了很好的平衡,可以实现实时目标检测。 总之,Faster R-CNN 是一种高效、准确的目标检测方法,是深度学习在计算机视觉领域中的重要应用之一。在未来,随着计算机视觉技术的进一步发展,Faster R-CNN 这类基于深度学习的目标检测方法将会得到更广泛的应用。 ### 回答3: Faster R-CNN是一种结合了深度学习和传统目标检测算法的新型目标检测方法,旨在提高目标检测速度和准确率。Faster R-CNN采用了Region Proposal Network(RPN)来生成候选区域,并通过R-CNN网络对候选区域进行分类和定位。 RPN是一种全卷积神经网络,用于在图像中生成潜在的候选区域。RPN通常在卷积特征图上滑动,对每个位置预测k个候选区域和其对应的置信度得分。这样,对于输入图像,在不同大小和宽高比的Anchor上预测候选框,可以在计算上更有效率。 R-CNN网络利用卷积特征图作为输入,对RPN生成的候选区域进行分类和精确定位。与以前的目标检测方法相比,Faster R-CNN使用了共享卷积特征,使得整个检测网络可以端到端地进行训练和优化,缩短了训练时间,同时也更便于理解和改进。 Faster R-CNN不仅具有较高的准确性,还具有较快的检测速度。在各种基准测试中,Faster R-CNN与其他目标检测算法相比,都取得了优异的性能表现。总之,Faster R-CNN将目标检测引入了一个新的阶段,为实时目标检测提供了一个良好的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值