【自监督：MFIF:掩模优化】

最新推荐文章于 2024-09-12 07:54:47 发布

原创最新推荐文章于 2024-09-12 07:54:47 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #图像处理

图像融合专栏收录该内容

134 篇文章

订阅专栏

提出SMFuse模型，一种自监督多焦点图像融合方法，通过生成精确的二进制掩模来创建全焦点图像。该模型利用引导滤波器获取初始掩模，并通过最大梯度损耗优化掩模准确性。

SMFuse: Multi-Focus Image Fusion Via Self-Supervised Mask-Optimization

（SMFuse: 通过自监督掩模优化进行多焦点图像融合）

本文提出了一种新颖的自监督mask-optimization模型，称为SMFuse，用于多焦点图像融合。在我们的模型中，给定两个源图像，训练一个完全端到端掩码生成器，以直接生成binary mask，而无需通过自我监督学习进行任何补丁操作或后处理。一方面，基于重复模糊原理，我们设计了一个带引导滤波器的引导块，从源图像中获得初始的二进制掩码，缩小了解域，加快了二进制掩码生成的收敛速度，这受到了map丢失的约束。另一方面，由于源图像中的聚焦区域显示出比散焦区域更丰富的纹理细节，即较大的梯度，我们还设计了融合图像和源图像之间的最大梯度损耗，作为后续优化操作，以确保融合图像完全聚焦，从而迫使我们的模型学习更准确的binary mask。
现存方法的一些缺点：
首先，基于变换域的方法通常无法通过生成决策图来获得全焦点图像。与源图像中的聚焦区域相比，仍然存在一些色差。
其次，对于基于空间域的方法中广泛使用的基于补丁的策略，对包含部分聚焦和部分散焦像素的边界区域进行分类可能是融合的绊脚石，导致边界附近的细节丢失。
第三，几乎所有基于空间领域的方法都在生成决策图后引入后处理，例如一致性验证或引导过滤。后果之一是聚焦和散焦的小区域和边界的模糊; 另一个是模型更加复杂，不再严格地端到端。
最后，使用深度学习技术的现有方法通常会生成具有清晰/模糊图像或合成二进制掩码作为地面真相参考的结果，也就是说，它们需要额外的监督，这通常很难获得。
为了解决上述问题，本文提出了一种新颖的自监督掩模优化模型SMFuse，用于多焦点图像融合。通过学习分类器来确定每个像素是聚焦还是散焦，我们的模型中的融合问题被公式化为具有准确的二进制掩码 (即决策图) 作为输出的分类问题。因此，我们的SMFuse可以看作是一种基于像素的空间域方法 ，它可以保留尽可能多的源图像信息。我们的模型不会遇到色差问题，也不会对包含部分聚焦和部分散焦像素的边界区域进行分类。值得注意的是，我们的SMFuse是一个完全端到端的模型，没有后处理，例如一致性验证或引导过滤，避免了小区域和边界的模糊。一方面，基于重复模糊原理，我们设计了一个带引导滤波器的导块，以获得初始二进制掩码作为基本约束，该方法可以缩小解域，并在映射丢失的约束下加快生成的二进制掩码的收敛速度。
另一方面，由于源图像中的聚焦区域显示出比散焦区域更丰富的纹理细节，也就是说，聚焦区域具有更大的梯度，因此我们还计算了最大梯度图，以确保生成的图像具有最大梯度损失。可以将其视为后续的优化操作，迫使Mask-Generator学习更准确的binary mask。换句话说，通过源图像本身的结构或特征，可以像监督学习一样构造或计算伪标签，即初始的二进制掩码和最大梯度图，以监督模型的训练。实际上，可以训练我们的SMFuse直接以自我监督的方式生成二进制掩码，而无需额外的地面真相参考作为监督。
贡献
1)我们提出了一个完全的端到端模型 (即SMFuse)，以明智地学习用于多焦点图像融合的精确二进制掩模像素，可以以自我监督的方式进行训练。
2)设计了引导块以获得带有引导滤波器的初始二进制掩模，从而缩小了解域并加快了二进制掩模生成的收敛速度。在此基础上，设计了最大梯度损耗进行优化，以学习更准确的二进制掩码。
3)我们的SMFuse展示了良好的结果，并结合了现有方法的优点，该方法防止了基于变换域的方法中的色差，由于斑块分解而导致的边界模糊以及由于后处理而导致的小区域和边界模糊。

相关工作

Existing Multi-Focus Image Fusion Methods

现有的多焦点图像融合方法可以分为基于空间域和变换域的方法。
在空间域方法中，源图像被分解为许多固定大小的部分，例如基于像素的，基于补丁的和基于区域的。其中，基于补丁的融合策略通常采用加权融合，即根据每个补丁的聚焦程度来估计源图像中每个补丁对应的权重，然后通过对源图像中相应补丁进行加权平均来获得融合图像中的每个补丁。具体地，根据反映聚焦程度的决策图最终生成融合图像。
相比之下，变换域方法的常见思想是将源图像转换为其他变换域，例如平滑，强度和纹理部分，然后根据特定的融合策略在变换域中进行融合。它的对象不再是固定大小的部分，而是具有一定融合规则的相应变换域。基于变换域的经典方法包括边缘保留技术，稀疏表示，离散小波变换，非子采样contourlet变换等。
一个值得注意的事实是，深度学习最近已成功地应用于图像处理，包括多焦点图像融合，而没有像经典方法那样的任何手工特征指定。特别地，使用深度学习的融合方法直接在输入和输出之间建立非线性映射关系。性能通常与训练数据的质量和大小密切相关，并且具有端到端方式和弱可解释性的特征。Liu等人与空间域融合方法相似，应用卷积神经网络对以图像块为输入的聚焦和散焦区域进行分类，从而生成融合的决策图。Li等人提出了一种深度回归对学习策略来估计相应的二元映射。两者都取决于基于零件的固定尺寸策略。作为一种变换域方法，[5] 的方法通过训练生成对抗网络来实现多焦点图像融合，其中融合过程主要在变换域中实现。Zhang等人提出的MFF-GAN通过设计良好的损失函数实现了高细节保存的多焦点图像融合，可以避免以往基于决策图的方法中出现的边界线附近的信息损失。又提出了一种新的基于深度卷积神经网络的自然增强方法的多焦点图像融合。具体地，融合对象是捕获低频内容和高频细节的多级特征。此外，还有一些基于深度学习的方法可以统一实现不同类型的图像融合任务，并且可以产生有希望的结果，例如U2Fusion和PMGI 。

Guided Filter

从局部线性模型导出的引导滤波器 (guided ﬁlter (GF)) 由He等人提出。它通过考虑引导图像的内容来计算过滤输出，引导图像可以是输入图像本身，也可以是另一个不同的图像。除了像流行的双边滤波器一样用作保边平滑算子（edge-preserving smoothing operator）外，它在没有梯度反转的情况下在边缘保持方面表现更好，被称为最快的保边滤波器之一。它的基本思想是函数上的点与其邻居的点具有线性关系，因此，复杂的函数可以由许多局部线性函数表示。当需要该函数上某个点的值时，只需计算包含该点的所有线性函数的值，然后将其平均即可。迄今为止，引导滤波器已成功应用于计算机视觉和计算机图形学，包括边缘感知平滑，图像消光/羽化，降噪和图像修复等领域。具体地，利用引导图像G，引导滤波器对输入图像I进行滤波，然后获得输出图像O。最后，输出图像O可以保留I的主要信息，并同时获得引导图像G的变化趋势。
请添加图片描述
其中r表示确定滤波器大小的窗口的半径，∈表示正则化参数。GF的总体实现步骤如下: 首先，用boxFilter获得I和G之间的相关系数参数。其次，根据均值计算相关系数参数，包括自相关方差var、相关协方差cov。第三，计算窗口线性变换参数。第四，根据公式计算窗口线性变换参数的平均值。最后，得到带有参数的引导滤波器的输出图像

Supervised, Unsupervised, and Self-Supervised Learning

监督学习使用大量带标签的数据来训练模型。通过反向传播 (计算梯度，更新参数) 不断减少模型的预测数据与真实标签之间的损失，并通过持续学习最终获得识别新样本的能力。监督学习可分为回归分析和统计分类。K最近邻 (K-nearest neighbor) 和SVM (支持向量机) 是两种典型的监督学习算法。相比之下，无监督学习不依赖任何标签值，并通过挖掘数据的内在特征 (例如与聚类相关的任务) 来探索样本之间的关系。
自我监督学习是无监督学习的一种特殊方式 。输入是一堆无监督的数据，但是通过数据本身的结构或特征，可以人工计算或构造标签。拥有标签后，可以像监督学习一样进行培训。
在我们的SMFuse中，自我监督学习体现在两个方面: 1) 基于重复模糊原理，使用引导块构建的MI作为基本约束来监督训练过程。2) 由于聚焦区域与梯度之间的强相关性，GM计算的Lgra也用于监督训练过程，作为后续优化操作。值得注意的是，MI和GM都是通过数据 (即源图像) 本身的结构或特征来构造或计算的。因此，它可以避免监督学习中的额外监督和无监督学习中的不确定性。

方法

Problem Formulation

多焦点融合的思想是将源图像的聚焦区域组合成全焦点的复合图像。因此，我们通过学习准确的mask而不是贴片来将融合过程公式化为像素到像素的分类问题，然后获得全聚焦融合图像IF。所提出的方法的整体示意图如图2所示。给定两个源图像I1和I2 (远聚焦和近聚焦)，对掩模生成器进行训练以生成最终的二进制掩模MF，其中每个像素表示与I2中的像素相比，I1中的像素是否被聚焦 (即聚焦，像素值为1) (即不聚焦，像素值为0)。同时，为了缩小解域并加快二进制掩码生成的收敛速度，我们设计了一个导块来获得初始二进制掩码MI。具体地，它是通过建立MI和MG之间的约束与映射损失Lmap来实现的，并且MG是在sign函数之前具有0到1之间的连续值的生成的映射。但是，由引导块生成的初始二进制掩模MI将聚焦区域和散焦区域的边界区域附近的像素大致分类，从而learnedMF不够准确，导致获得具有像素模糊的融合图像。因此，我们在此基础上进一步优化MF。请添加图片描述
请注意，纹理细节可以通过梯度分布来表征。为了学习更准确的MF，通过I1和I2的梯度图，即G1和G2，我们进一步设计了一个max-gradient loss Lgra，以计算一个max-gradient mapGM。GM可以视为相应的全聚焦图像的梯度图。然后用**最大梯度损耗Lgra建立GM和GF之间的另一个约束，迫使IF消除几个像素的模糊，**也就是说，学习的掩模更准确。为了更好地显示我们的SMFuse的有效性，两个典型图像对的数据处理如图3所示。
请添加图片描述

Guided-Block Architecture

引导块旨在获得初始二进制掩码MI，该初始二进制掩码MI用作参考以缩小解域并加快训练过程。MI的大多数区域可以正确指示聚焦和散焦区域。引导块的示意图如图4所示。
请添加图片描述

首先，基于重复模糊的原理，即模糊后，模糊前后的聚焦像素之间的差异大于散焦像素。重复模糊的示意图如图5所示，因此可以检测每个像素的清晰度。但是，我们仍然无法获得初始二进制掩码，因为两个源图像中的许多相应像素，尤其是平滑区域，都是相同的，也就是说，它们无法被检测到。
请添加图片描述
在此基础上，我们引入了引导滤波器 (GF) 来过滤以源图像为引导图像的减法图S1和S2，其中S1和S2是源图像模糊前后的差异。结果F1和F2分别定义为:
在这里插入图片描述
通过引导滤波器，可以将引导图像中的高频信息传输到输出图像，并增强减法图中的高频信息。最后，我们可以通过采用相应引导图的像素最大规则来获得初始二进制掩码MI。

Network Architecture ofMask-Generator

我们的SMFuse中的掩码生成器由编码器从源图像中提取特征，并由相应的解码器通过降维来生成掩码，同时还对融合的特征进行了约束。编码器的架构如图6所示
请添加图片描述

为减少网络计算量，将源图像统一变换为单通道灰度图像作为输入。在每个分支中，提取特征的方式都借鉴了DenseNet的思想，即每个层都以前馈风格与其他层有短暂的直接连接。具体地，每个分支中使用的参数对于处理具有较大差异的源图像是不同的。每个分支中有四个卷积块 (Conv-Block)。所有卷积层的填充模式都设置为 “有效”，因为 “相同” 模式将导致图像边缘模糊。为了保持特征图的大小不变并匹配源图像的大小，在一个卷积层之前设置一个额外的填充操作。特别地，所采用的激活函数是泄漏的remu，并且所有内核大小都设置为3，而步幅设置为1。每个Conv-Block的输出是16个特征图。最后，将两个分支的输出串联到128特征图。表I总结了所有层的具体设置。
请添加图片描述

解码器的结构如图7所示，
请添加图片描述

由于所有卷积层中的内核大小都设置为1，而步幅设置为1，并且特征图的大小不会改变，因此不需要填充操作。前两个卷积层采用 Leaky ReLU作为激活函数。而对于第三层，它是由tanh激活的，其图显示在图8的左边。由于tanh的范围是 [-1,1]，需要对tanh的输出进行映射，以生成具有0到1之间连续值的一维特征图MG，此过程给出为: 请添加图片描述

其中conv3是第三卷积层的输出。此外，为了在没有色差的情况下极大地保留来自源图像的尽可能多的信息，我们设置了一个附加的符号功能。符号函数如图8的右侧所示。并且，最后执行映射操作以获得最终的0-1二进制掩码MF，其被格式化如下:
在这里插入图片描述

Loss Function

我们的SMFuse中的损失函数L由两个项目组成: map损失Lmap和最大梯度损失Lgra，权重 λ 控制着它们之间的权衡。其定义如下:
在这里插入图片描述
其中，map loss Lmap用于缩小解域并加快生成的二进制掩码的收敛速度。特别地，使用平滑的L1来实现它，避免了L1中收敛速度慢和L2中梯度爆炸的问题。Lmap形式化如下:
请添加图片描述
实际上，只有使用Lmap，我们还可以获得融合的图像，该图像可以融合最集中的区域。然而，这往往是不够的。因此，Lgra被设计为后续优化操作，以强制融合的图像全部聚焦，从而迫使Mask-Generator学习更多精确的binary mask，其定义如下:
在这里插入图片描述

在这里插入图片描述