理解《Unsupervised Deep Multi-focus Image Fusion》

最新推荐文章于 2024-03-30 13:27:19 发布

weixin_45043668

最新推荐文章于 2024-03-30 13:27:19 发布

阅读量1.4k

点赞数 1

分类专栏：图像融合文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45043668/article/details/104248842

版权

图像融合专栏收录该内容

5 篇文章 0 订阅

订阅专栏

理解《Unsupervised Deep Multi-focus Image Fusion》

1、概述

现有的基于卷积神经网络的多聚焦图像融合算法往往有以下两个瓶颈：
1、有监督算法依赖于大量的有标记数据。
2、在通过网络得到像素分类的得分图以后往往还会需要一系列的后处理操作来得到最终的得分图。
主要为了解决以上两点问题，作者提出了一种基于无监督学习的多聚焦图像融合算法。算法主要有以下特点：
1、采用无监督学习，数据采用真实的标准多聚焦图像数据集（主要对比于DeefFuse的合成数据），不需要标注的数据。
2、采用端到端网络，没有后处理操作，提高算法运行效率
3、采用全卷积网络，适合任意尺寸的输入

2、算法网络结构

网络结构主要分为三部分：特征提取、融合、图像重建
网络结构如下图：
1）网络主要结构
在这里插入图片描述
2）特征提取模块于重建模块结构

特征提取网络
图中绿色部分为卷积核大小为3×3的64通道卷积操作。
输入图像首先会经过特征提取模块D1（图像中紫色的部分）来得到高维非线性特征图。之后将得到的特征融合。除此之外作者将俩个张输入图像求平均以后经过一层卷积网络后与融合特征直接相加并送入另一个特征那个提取网络D2（下方橘黄色的特征提取分支）。这两个特征提取模块具有不同的深度文章中D1具有5层，D2有6层（每层Conv+ReLU），且没有使用pooling的操作（和感受野？）
特征重建网络
这一部分对应第二张图中的D3。特征重建网络深度大于特征提取网络D1与D2。特征重建网络包括七层，其中前六层采用负半轴斜率为0.2的LReLU作为激活函数，最后输出层采用Sigmod作为激活函数。注意图像重建的输入用到了类似密集链接的方式，应该是为了融合多尺度特征，减少信息损失。
损失函数
因为为无监督模型，并不需要标注好的全聚焦图像。损失函数的设计引入了图像融合结果的评价指标图像结构相似性（SSIM）。模型损失函数定义如下图：
在这里插入图片描述

分别计算两个输出图像相对于网络输出的结构性损失（SSIM）。在计算图像结构损失（SSIM）时采用7×7的window，同时额外计算每个7×7window中这49个像素的标准差（std(x1|w)与std(x2|w) ），最终分别得到两张输入图像相对于网络输出的结构性损失图与对应的标准差图。之后根据两张图象对应window处的标准差大小与结构性损失来计算得到输入与输出的Scope。（作者这里解释：图像块的标准差可以衡量图像块的清晰程度，标准差越大可以理解为细节越丰富，图像就越清晰，采用SSIM可以最大化输出图像与输入图像的结构一致性。我觉得Scope的含义可以理解为网络输出的融合图像与可能达到的最清晰的融合图像的结构性差异。感觉这个损失函数设计可以看到基于空间域多聚焦图像融合中的块方法的影子）最后根据Scope得到最终的loss。