理解《Unsupervised Deep Multi-focus Image Fusion》

理解《Unsupervised Deep Multi-focus Image Fusion》

1、概述

现有的基于卷积神经网络的多聚焦图像融合算法往往有以下两个瓶颈:
1、有监督算法依赖于大量的有标记数据。
2、在通过网络得到像素分类的得分图以后往往还会需要一系列的后处理操作来得到最终的得分图。
主要为了解决以上两点问题,作者提出了一种基于无监督学习的多聚焦图像融合算法。算法主要有以下特点:
1、采用无监督学习,数据采用真实的标准多聚焦图像数据集(主要对比于DeefFuse的合成数据),不需要标注的数据。
2、采用端到端网络,没有后处理操作,提高算法运行效率
3、采用全卷积网络,适合任意尺寸的输入

2、算法网络结构

网络结构主要分为三部分:特征提取、融合、图像重建
网络结构如下图:
1)网络主要结构
在这里插入图片描述
2)特征提取模块于重建模块结构
在这里插入图片描述
特征提取网络
图中绿色部分为卷积核大小为3×3的64通道卷积操作。
输入图像首先会经过特征提取模块D1(图像中紫色的部分)来得到高维非线性特征图。之后将得到的特征融合。除此之外作者将俩个张输入图像求平均以后经过一层卷积网络后与融合特征直接相加并送入另一个特征那个提取网络D2(下方橘黄色的特征提取分支)。这两个特征提取模块具有不同的深度文章中D1具有5层,D2有6层(每层Conv+ReLU),且没有使用pooling的操作(和感受野?)
特征重建网络
这一部分对应第二张图中的D3。特征重建网络深度大于特征提取网络D1与D2。特征重建网络包括七层,其中前六层采用负半轴斜率为0.2的LReLU作为激活函数,最后输出层采用Sigmod作为激活函数。注意图像重建的输入用到了类似密集链接的方式,应该是为了融合多尺度特征,减少信息损失。
损失函数
因为为无监督模型,并不需要标注好的全聚焦图像。损失函数的设计引入了图像融合结果的评价指标图像结构相似性(SSIM)。模型损失函数定义如下图:
在这里插入图片描述
在这里插入图片描述
分别计算两个输出图像相对于网络输出的结构性损失(SSIM)。在计算图像结构损失(SSIM)时采用7×7的window,同时额外计算每个7×7window中这49个像素的标准差(std(x1|w)与std(x2|w) ),最终分别得到两张输入图像相对于网络输出的结构性损失图与对应的标准差图。之后根据两张图象对应window处的标准差大小与结构性损失来计算得到输入与输出的Scope。(作者这里解释:图像块的标准差可以衡量图像块的清晰程度,标准差越大可以理解为细节越丰富,图像就越清晰,采用SSIM可以最大化输出图像与输入图像的结构一致性。我觉得Scope的含义可以理解为网络输出的融合图像与可能达到的最清晰的融合图像的结构性差异。感觉这个损失函数设计可以看到基于空间域多聚焦图像融合中的块方法的影子)最后根据Scope得到最终的loss。

模型训练

数据集利用60对多聚焦图像进行64*64大小的随机减裁得到50000个训练数据,每个epoch有400个iterations,初始学习率1e-3。

模型测试

下图为在两张图上的测试结果,Qs衡量融合图像相对输入图像结构的保留程度,Qcv衡量人对融合图像的直观感受,VIFF衡量视觉信息保真度,EN衡量融合图像的信息量:
在这里插入图片描述
在这里插入图片描述
下图为将十组多聚焦图像数据集上的测试结果(十组数据被分为两部分,Data1,Data2各五组):
在这里插入图片描述

总结

无监督,端到端是亮点,也是之后要参考的方向。感觉损失函数部分根据标准差判断清晰与否是否充分有效,并且只考虑了结构相似性或许还有改进的空间。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值