U2Fusion原文整理
一、Introduction
- 图像融合的主要适用场景:多模态、多曝光、多焦点;
- 图像融合面临的主要问题:缺少gt图像做参考,特别是多模态问题(多曝光也是);度量(损失函数)一般是根据特定的应用场景设定的,缺乏泛化性;
- 设计端到端统一融合模型的难点:不同任务中,源图像类型不同,其蕴含的重要信息差异很大,难以确定统一的表征——神经网络表征能力强,可以解决这一问题;
- 设计端到端统一融合模型的优势:汇集多任务优势,有互补的效果;模型泛化能力强。
1、 U2Fusion
- 前身为FusionDN,步骤为特征提取、特征度量、融合网络;
- 特征提取使用的是预训练的VGG-16,融合网络使用的是DenseNet;
- 网络结构:
二、Related Work
- 传统融合方法:
-
- a. 多尺度变换:拉普拉斯金字塔、低通比金字塔、梯度金字塔、离散小波、离散余弦、曲波变换、剪切波;
-
- b. 稀疏表示;
-
- c. 子空间分析:独立成分分析、主成分分析、非负矩阵分解;
-
- d. 混合方法。
- 常用融合规则:最大值、最小值、加法、1范数。
- 端到端方法:
-
- Deepfusion等;
-
- MEF-SSIM丢弃了亮度分量,专为多曝光融合方法设计的无参考度量。
三、模型结构【重要】
1、 问题公式化
- 多曝光图像中,与场景内容有关的重要信息需要被增强;
- 提出了浅层特征(纹理、局部形状)和深层特征(内容、空间结构)两个信息度量;
特征提取
受感知损失启发,特征提取部分使用预训练VGG-16,结构如下:
- 对特征图的可视化可以发现,浅层特征中(C1和C2)展示了更多来自于过曝图像的纹理细节和梯度;深层特征中(C4和C5)展示了更多来自于欠曝图像的内容和空间结构。
- 浅层特征和深层特征的组合形成了人类视觉感知系统不容易感知的基本信息的综合表示。
信息度量
这一部分是为了评估特征提取出的图像中包含的信息的重要程度,以分配权重进行融合。
- 使用图像梯度作为度量指标的适应性和优势:图像梯度是基于具有小感受野的局部空间结构的度量。当在深度学习框架中使用时,梯度在计算和存储方面都更有效。因此,它们更适合应用于CNN的信息测量。
参数说明见原文。
信息保留度:自适应权重w生成
这一部分是根据“信息度量”中计算的图像梯度为每个源图像生成对应的融合权重,表明了源图像与融合图像之间的相似度。计算公式为
2、 损失函数
损失函数的设计是为了适用于多个融合任务,公式为:
当只需要解决一个任务时(如多曝光融合),可以去掉蓝色部分。λ是超参数。
关于红色部分损失Lsim
Lsim定义了源图像和融合结果之间的相似性损失,这里包括两部分约束:结构相似性和强度分布。
- 结构相似度约束:
- 强度分布约束:
加起来就是Lsim:
3、 针对多任务设计的弹性权重合并(EWC)
这一部分介绍了U2Fusion是如何解决多任务是的灾难性遗忘的问题,也由此给出了“损失函数”中蓝色部分的原因和公式。
- 适用于多任务的单一模型的实现方法有两种:联合训练和顺序训练;联合训练有oom的问题,针对顺序训练灾难性遗忘的问题提出了弹性权重合并的方法。
- Lewc公式如下,
其中μ是表示参数重要性的权重,可以按照下式迭代:
- 弹性权重合并就是μ迭代的过程,文字描述看原文。
4、网络架构
融合网络使用的是DenseNet(训练和测试阶段公用),输入源图像,输出融合结果,是一个端到端的模型,结构如下:
- 设置短连接(图中的concatenation)可以减少梯度消失的问题。
5、RGB图像的处理
U2Fusion是一个单通道融合网络,处理RGB图像方法是:
- 将RGB转换为YCbCr;
- 只对Y通道做U2Fusion融合,因为Y通道结构细节突出,亮度多余色度;
- Cb、Cr做传统融合,因为是色度分量;
tao取128。
6、多输入的处理
- 顺序融合:当源图像超过两张时,U2Fusion的融合方法是先融合前两张,再将这两张的融合结果与第三张融合。
四、实验结果
这里只简述多曝光融合任务的结果。
- 指标:SSIM、PSNR、CC、EI;
- 数据集:文中文献【41】和EMPA HDR
- 实验结果表明U2Fusion融合结果相关性高、失真小、梯度幅值更大。(Deepfuse结果也不错,可参考)