论文笔记:U2Fusion A Unified Unsupervised ImageFusion Network(2020 TPAMI)

U2Fusion: A Unified Unsupervised Image Fusion Network

  • 引用格式】:

    Xu H , Ma J , Jiang J , et al. U2Fusion: A Unified Unsupervised Image Fusion Network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

  • 论文网址】:https://ieeexplore.ieee.org/document/9151265/citations

  • 开源代码】:https://github.com/hanna-xu/U2Fusion

  • 开源数据集】VIS-IR数据集RoadScene:https://github.com/hanna-xu/RoadScene

一、瓶颈问题:

1、如何在无ground truth和通用参考指标情况下构建统一的图像融合模型?

传统的融合框架、融合规则的有限选择和手工设计的复杂性限制了性能的提高。在端到端模型中,融合问题通过依赖监督学习的ground truth或专门设计的无监督学习度量来解决。然而,不存在多个任务的通用基本事实或无参考指标。然而,不存在多个任务的通用基本事实或无参考指标。这些问题是构建统一模型和有监督或无监督学习应用的主要障碍。

2、对于不同场景的图像,如何有效保留不同图像的重要信息,从而构建泛化性良好的模型?

不同的融合任务往往有着相同的目标,即通过整合来自多个源图像的重要和互补信息来合成一幅图像。然而,在不同的任务中,由于源图像的类型不同,需要整合的重要信息也有很大差异,因此大多数方法的有效性仅限于特定任务

3、其他动机:聚合多个任务的优势,可以获得更好的融合结果

通过在统一的模型中解决不同的融合问题,这些任务可以相互促进。例如,已被训练用于多曝光图像融合的统一模型,它能够改善多模态或多聚焦图像中曝光不足/曝光过度区域的融合性能。因此,通过整合多个任务的优势,统一模型可以获得更好的结果,每个单一的融合任务比多个单独训练的模型具有更强的泛化能力。

二、 本文贡献:

1、为各种图像融合任务提出了一个统一的框架。

更具体地说,我们用统一的模型和统一的参数来解决不同的函数问题。我们的解决方案缓解了以往方法的缺点,例如对不同的问题需要采取单独的解决方案,用于训练的存储和计算问题,以及用于持续学习的灾难性遗忘。

2、提出了一种新的无监督图像融合网络

通过约束融合图像与源图像之间的相似性,提出了一种新的无监督图像融合网络,克服了大多数图像融合问题中的普遍障碍,即缺乏普遍的ground truth和无参考度量。

3、发布了一个新的红外和可见光图像数据集RoadScene

4、实验

在多模式、多曝光和多聚焦图像融合的六个数据集上测试了所提出的方法。定性和定量结果验证了U2Fusion的有效性和通用性。

三、 解决方案:

提出了一个统一的无监督图像融合网络,称为U2Fusion。

  • 关键点:
    • ① 特征提取器:从源图像中提取丰富而全面的特征
    • ② 确定特征重要性:通过测量特征中信息的丰富程度,确定这些特征的相对重要性。更高的相似性意味着在结果中保留了源图像中更多的信息,从而具有更高的信息保留程度。

1、问题定义

思想: 通过度量图像的信息丰富程度,来表征源图像与融合图像的相似度,信息越丰富,则这张源图像越重要。

关键问题: ①寻找一种统一的信息度量方法来决定源图像的信息保留程度;②如何解决不同类型的源图像的重要信息差异问题?

解决方法: 综合考虑源图像的多因素特性来解决——提取浅层特征(纹理、局部形状等)和深层特征(内容、空间结构等)来估计信息度量。

流程图:

img

上方:输入的源图像I1,I2,使用已训练的DenseNet生成融合图像If

下方:使用VGG模型对源图像进行特征提取得到5个层次的特征图(max-pooling前);使用特征图对源图像进行信息度量,得到两个数值gI1,gI2;之后得到最终的信息保留水平w1,w2.

  • 特征提取

image-20220405163657525

使用预训练的VGG16特征提取得到5个层次的特征 image-20220405163642888,通过综合各个层次的特征能够更好反应人类视觉感知情况。(浅层特征包含纹理、形状细节信息,深层特征包含内容和空间结构信息)

  • 信息度量

    基于特征图的梯度信息进行信息度量。图像梯度是一种基于局部空间结构的度量,具有较小的感受野。

    img

    其中:

    电脑屏幕的照片上有字  中度可信度描述已自动生成表示第j个max-pooling前面的特征

    k表示特征图的第k个通道

    ▽表示拉普拉斯算子(二阶微分算子)

    F-范数:文本  中度可信度描述已自动生成

  • 信息保留水平

    基于信息度量结果计算得到两个自适应权重ω1,ω2,度量两张源图像分别与融合图像的相似性。损失函数采用ω1和ω2来控制特定源图像的信息保存程度。

    img

    Softmax将权重映射到0~1之间

    预定义常数c用于缩放(gI1和gI2数值较小,差异小),以便更好地分配权重。

2、设计损失函数

image-20220405163827154

相似性约束(similarity constraint (SIM)):结构相似、强度分布

img

A) structural similarity index measure (SSIM):根据亮度、对比度和结构等信息的相似性来模拟失真

img

其中,Sx,y表示两个图像之间的SSIM值

B) mean square error(MSE):由于SSIM对强度分布差异的约束较弱,因此引入均方误差(MSE)来约束强度分布。

img

通过约束MSE获得的结果会出现相对模糊的外观,而SSIM可以弥补这个问题。因此,这两项能够相互补偿。

②弹性权重合并(Elastic Weight Consolidation (EWC))

**背景:**不同的融合任务通常会导致特征提取、融合的差异,这直接反映在DenseNet参数的不同值上。我们希望用统一的参数训练一个单一的模型,将这些模型集成在一起,从而适用于多个任务。

实现的两类方法: 联合训练、顺序训练

在这里插入图片描述

当任务数量增加时,联合训练会出现:存储问题、计算问题

顺序训练的问题:灾难性遗忘问题。(在新任务上优化参数的过程中会导致失去之前学习到的能力)

3、解决灾难性遗忘问题的方法:EWC

思想: 先前任务的重要参数赋予更大权重,使得在后续模型优化过程变化较小,而冗余参数赋予较小权重,用于后续任务的优化,在后续训练中变化较大。

卡通人物  中度可信度描述已自动生成

其中,θ*为先前任务的参数,θ为当前任务的参数

为了评估重要性,将μi指定为费舍尔信息矩阵的对角项,并通过计算与先前任务中定义如下的数据的梯度平方来近似。

卡通人物  中度可信度描述已自动生成

如果存在多个先前任务,Lewc(θ,D)将根据特定任务和相应数据进行调整。然后,对这些梯度的平方进行平均,得到最终μi。图7展示了训练过程和数据流。

多任务训练过程:

图示  描述已自动生成

细线的数据流表示用于计算μi

4、网络架构

图示, 示意图  描述已自动生成

每一层的特征图均为44通道

有研究已经证明,如果在靠近输入层和靠近输出层之间建立较短的连接,CNN可以显著地更深入和有效地训练。因此,在前七层中,使用密集连接CNN的密集连接块来改善信息流和性能。这些层中,以前馈的方式从通道维度对特征图进行串联,可以减少渐变消失的问题。同时,可以在减少参数数量的同时进一步加强特征传播。后面的四层逐渐减少特征映射的通道,直到生成单通道融合结果

5、RGB转YCrCb

由于图像的结构细节主要在亮度(Y)通道中,且亮度变化比色度通道更加显著,因此,将亮度通道采用上述方法进行融合。Cb和Cr(色度)通道采用传统方法进行融合。

蓝色的钟表  描述已自动生成

6、获得融合结果图像

将YCrCb空间中各通道的融合结果通过逆变换转换为RGB颜色空间

7、多张源图像输入情况

在多曝光/多聚焦图像融合任务中,输入的源图像往往不止2张,这种情况下可以先选取两张图像进行融合,之后将融合结果与第三张图像融合,依次类推。

四、 实验结果:

1、实验设置

  • 融合任务:3类

①multi-modal(VIS-IR and medical image (PET-MRI))、②multi-exposure、③multi-focus

  • 数据集:6个

  • 训练集:

    • 任务1:多模态图像融合:RoadScene1 (VIS-IR)【自制 、开源】 and Harvard2 (PET-MRI)

    • 任务2:多曝光图像融合:SICE

    • 任务3:多聚焦图像融合:Lytro

  • 测试集:

    • 任务1:VIS-IR图像融合:TNO

    • 任务2:多曝光图像融合:EMPA HDR

2、模型训练

  • 源图像切片:64×64
  • α= 20
  • λ= 8e4
  • c = 3e3, 3.5e3, 1e2
  • epochs = 3,2,2
  • learning rate = 1e-4
  • optimizer: RMSPropOptimizer

3、Visible and Infrared Image Fusion

对比方法:HMSD, GTF, DenseFuse, FusionGAN,DDcGAN

数据集:TNO and RoadScene datasets

定性评估:

  • ① U2Fusion保留了更多细节

墙上贴了许多海报  描述已自动生成

墙上贴了许多海报  中度可信度描述已自动生成

  • ② U2Fusion还用于融合道路场景中的可见光(RGB)和灰度红外图像。由于融合过程仅在Y通道上执行,因此融合结果更像由红外图像增强的VIS图像,以获得更好的场景表示。

图片包含 日程表  描述已自动生成

定量评估:

评估指标:

  • correlation coefficient (CC):测量源图像和结果之间的线性相关度
  • structural similarity index measure (SSIM)
  • peak signal-to-noise ratio (PSNR):评估融合过程造成的失真
  • sum of the correlations of differences(SCD):量化了融合图像的质量。

表格  描述已自动生成

  • 结果: 前三个指标取得第一名,SCD取得第二名。表明U2Fusion可以实现源图像的高保真度,减少失真、噪声或伪影。

4、Medical Image Fusion

对比方法: RPCNN, CNN, PA-PCNN, NSC

数据集: Harvard dataset

定性评估: U2Fusion在几乎不损失功能(颜色)信息的前提下,具有更多的结构(纹理)信息。

图形用户界面, 应用程序  描述已自动生成

定量评估: 使用VIS-IR图像融合相同的四个指标进行对比,在CC、SSIM和PSNR上的最佳结果表明,U2Fusion与源图像具有较高的相关性和相似性,并且不会产生失真/噪声。在SCD上取得了次优结果。

表格  描述已自动生成

5、Multi-exposure Image Fusion

对比方法: GFF, DSIFT, GBM, Deepfuse, FLER

数据集: SICE、EMPA HDR dataset

定性评估:

① 在U2Fusion中,GFF、DSIFT和FLER中的局部暗区得到了改善。

② 与GBM和Deepfuse相比,U2Fusion的结果更加丰富,细节更清晰,对比度更高,提供了更好的细节表现。

许多照片放在一起  描述已自动生成

应用程序  中度可信度描述已自动生成

定量评估:

edge intensity (EI):EI反映了边缘点的梯度幅值

使用SSIM、PSNR、CC、EI进行评估,结果表明U2Fusion的融合图像与源图像的相似性和相关性较高,失真较小,梯度幅度较大。

表格  中度可信度描述已自动生成

(部分指标取得最优结果,其他指标接近最优)

6、Multi-focus Image Fusion

对比方法: DSIFT, GBM, CNN, GFDF, SESF-Fuse

数据集: Lytro dataset

定性评估:

① U2Fusion方法缓解了其他方法在聚焦和散焦边界处的模糊问题

② U2Fusion在更大程度上保留了细节信息。

许多照片放在一起  描述已自动生成

定量评估:

评估指标:

  • visual information fidelity (VIF):通过计算源图像和融合结果之间的失真来测量信息保真度。
  • mean gradient (MG):MG越大,图像包含的梯度越多,融合性能越好。

使用EI, CC, VIF, MG进行评估,EI的最佳结果和MG的次优结果表明,U2Fusion的结果中有更多的梯度,以获得更清晰的外观。CC上的最佳结果和VIF上的最佳结果表明,U2Fusion与源图像保持了最高的线性相关性,并实现了相当的信息保真度。

表格  描述已自动生成

7、ABLATION EXPERIMENTS

EWC

  • i) the similarity loss

图表  描述已自动生成

结果: 在训练任务2时,有无使用EWC效果差不多;在训练任务3时,无EWC的模型任务2的验证集的损失明显增加,说明模型对任务2的性能下降,而有EWC的模型仍然保持稳定状态。

结论: 通过应用EWC,我们可以获得适用于这些任务的单一模型

  • ii) statistical distributions of μi

μi是由每个任务训练后的相似性损失和相应的数据集计算得出。μ越大说明前一个任务的θ越重要,越小说明对应的θ是冗余的。(个人理解:μ的分布一定程度上反映了前后两个任务的模型参数之间的关系。)

许多不同颜色的铅笔  中度可信度描述已自动生成

结果: 无EWC下,三个任务的分布差异不明显;而有EWC下,较大的μ显著增加,表明网络存在更多对前后两个任务都比较重要的参数,较小的μ显著减少,表明网络的冗余度在降低。

结论: 越来越多的参数在提高融合性能方面发挥着重要作用。

  • iii) intermediate fusion results during the training phase

图形用户界面  描述已自动生成

结果: 在未训练任务3时,任务3的融合结果出现比较明显的边界模糊现象,训练任务3之后,任务3的融合结果得到锐化。在任务3训练后,无EWC的任务2融合结果性能下降(出现过暗现象),而有EWC的任务2仍表现良好。

②不同任务之间相互促进的统一模型

背景: 在U2Fusion中,我们使用EWC不断地从新任务中学习。这样,统一模型就能够使用多种类型的源图像。因此,使用统一的参数,通过U2Fusion从单个任务中学习到的信息可以促进其他任务。

方法: 为每个任务创建了一个单独的模型,将结果与U2Fusion进行对比。

结果: U2Fusion能改善多聚焦和多模态图像融合中的一些亮度过曝区域的效果;能够改善多曝光图像融合任务中的多聚焦区域,得到更加清晰、锐利的边缘。

图片包含 日程表  描述已自动生成

结论: 通过收集多个任务的强度,U2Fusion不仅对多种类型的源图像,而且对同一类型的源图像中的多种类型的区域具有很强的泛化能力。因此,一个统一的模型可以实现不同融合任务的相互促进。

③关于自适应信息保存度的消融研究

方法: 将ω1和ω2固定为0.5,与U2Fusion结果对比

结果:

  • 在多模态图像融合中,没有自适应信息保留度的结果显示出更差的细节表示,如云的边缘、吉普车的纹理、网络的细节和结构信息。
  • 在多曝光图像融合中,过度曝光区域的差异非常明显。如果没有自适应度,这些区域看起来仍然过度曝光,例如花朵、窗户和太阳。这种现象在多聚焦图像融合的结果中最为明显。
  • 当ω1和ω2直接设置为0.5时,网络无法区分聚焦区域和散焦区域。因此,结果出现了模糊的边缘,而U2Fusion生成更清晰的外观。

在这里插入图片描述

训练顺序的影响

方法: 三种训练顺序进行对比

定性评估:

许多照片放在一起  描述已自动生成

  • 多模态、多曝光图像融合训练顺序的交换对多聚焦图像的融合影响不大。

  • 将多聚焦图像融合作为任务1的融合图像表现得比较模糊。

定量评估:(两个指标:correlation coefficient (CC)和meangradient (MG))
在这里插入图片描述

  • 最后一行的MG指标都下降,同样反映出融合结果的清晰程度降低。

结论: 多模态和多曝光图像融合的训练顺序对融合结果影响不大,而多聚焦的训练顺序对融合结果影响相对显著。最佳性能顺序:多模态→多曝光→多聚焦

⑤*U2Fusion vs. FusionDN(本文方法的初版)

改进1: 信息保存度分配策略 效果:保留了源图像中更多的细节

改进2: 损失函数 效果:融合的强度更接近于源图像

改进3: 训练任务 效果:边缘和纹理改善

  • 8
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅若清风cyf

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值