UIF:轻量级:AE

UNIFusion: A Lightweight Unified Image Fusion Network

(UNIFusion: 一个轻量级的统一图像融合网络)
之前的统一融合框架,由于所涉及子任务的多样性,因此无法保证这些统一解决方案的融合性能。此外,这些模型的巨大体积也牺牲了它们在实际应用中的灵活性。为此,我们提出了一个轻量级的统一融合网络,以平衡跨不同渠道和不同层的多级信息。特别是,我们基于具有新损失函数的Ghost模块构建了一种新颖的网络体系结构。与现有的基于学习的融合方法相比,设计的网络的深度增加了,而参数的数量减少了一个数量级。原则上,我们的网络属于自动编码器范式,分别包括三个部分: 编码器,融合层和解码器。考虑到现有的基于自动编码器的方法的功效受到单一融合策略的阻碍,我们使用引导滤波方法将源图像分解为基础层和细节层,以扩展输入的多样性。在此基础上,我们可以在这两个层中设计不同的融合策略,以适应不同的图像融合任务。在融合层中,除了平均、最大、空间注意三种基本融合策略外,还提出了一种额外的梯度感知策略来处理多焦点图像融合问题,提高了相应的融合性能。

介绍

一般而言,图像融合主要包括三个子任务,即多模态图像融合、多焦点图像融合、多曝光图像融合。为了解决这些问题,传统方法通过信号处理技术进行分解以提取图像特征。例如,基于多尺度分解的融合方法首先将源图像分解为不同的尺度,以提取显著特征。接下来,设计一种融合策略来获得最终的融合结果。此外,稀疏表示和低秩表示也获得了广泛的关注。为了分解源图像的高频和低频信息,还将滤波技术应用于图像融合任务。尽管这些方法取得了令人鼓舞的结果,但这些方法的融合性能高度依赖于手工制作的功能。此外,融合源图像所采用的融合策略过于粗糙,无法满足复杂图像融合任务的要求。
为了解决这些问题,已经提出了许多基于学习的图像融合方法。在多焦点图像融合领域,训练了卷积神经网络来区分模糊和清晰的图像斑块。但是,这种方法基于手工制作的数据集,无法直接传输到其他图像融合任务。由于缺乏期望的地面真相融合结果,一些研究致力于以无监督的方式解决图像融合问题。生成对抗网络 (GANs) 和自动编码器网络是为在无监督框架中进行深度架构培训而开发的。尽管上述方法引导了融合性能,但它们仅针对一个特定的融合任务,而没有考虑不同融合子任务的多功能性。为了探索通用的图像融合解决方案,近年来,基于深度学习开发了统一的融合框架。其中一些方法通过设计通用损失函数来解决不同的融合任务。
但是,使用一个损失函数很难有效地实现所有图像融合子任务。另一方面,一些方法使用手工制作的图像数据集来训练卷积神经网络。之后,这个网络被用来处理不同的图像融合问题。由于所有监督信号都来自手工制作的数据集,该数据集始终为特定的融合子任务配置,因此限制了这些方法在其他融合子任务上的泛化性能。此外,所有这些方法都不能有效地解决多焦点图像融合问题(所以本篇还是侧重对多聚焦)。与生成不确定的图像融合结果相比,自动编码器网络的训练过程显然更加稳定和容易。因此,在本文中,采用了自动编码器网络。

近年来,已经出现了许多用于移动设备的深度网络设计,以加速深度特征提取。2020年,Han等人提出了Ghost模块,该模块通过使用群卷积大大降低了普通卷积运算的计算复杂度。为了减少融合网络中的参数数量,我们将此Ghost模块引入到自动编码器设计中。现有的基于自动编码器的融合框架只能处理单个融合任务。为了在原始框架上进行扩展,我们使用相互引导的滤波将源图像分解为两层: 基础层和细节层。这样,我们就可以根据具体的融合任务为这两层设计不同的融合策略。

贡献

1)我们将Ghost模块引入我们的网络,并基于多个残差和密集连接设计了一种新颖的自动编码器网络。在不损失性能的情况下,与现有的基于学习的方法相比,我们的UNIFusion具有最少的参数数量。此外,我们通过设计新的损耗函数进一步改进了自动编码器网络。

2)我们使用滤波技术将源图像分解为分别反映低频和高频信息的基础层和细节层。在这种情况下,我们可以针对特定信息采用不同的融合策略。这种两层方案为广泛的融合任务提供了有希望的性能。

3)现有的统一融合算法不能有效地解决多焦点图像融合的任务。为此,我们专门提出了一种基于两层方案的梯度感知融合策略来处理多焦点图像融合问题。

4)与现有的基于自动编码器的方法相比,我们的方法是一个统一的框架,可以有效地完成所有涉及的图像融合任务。定性和定量实验表明,我们的方法在这些融合任务上取得了优异的性能。

相关工作

Autoencoder-Based Method

Prabhakar等人设计了一种使用称为DeepFuse的卷积神经网络进行多曝光图像融合的框架,该网络分别由编码器、融合层和解码器组成。在训练阶段,作者引入了图像评估度量MEF-SSIM作为损失函数,指导融合图像与源图像共享更多的结构相似性。此外,在融合层中采用了简单的添加策略。但是,由于其简单的融合策略,它在其他融合子任务上的性能较差。Huang等人提出了DenseNet架构。通过在不同的卷积层之间进行密集连接,将所有卷积层的输出视为后续卷积层的输入。这种结构可以充分利用整个特征贴图。受这两种方法的启发,Li和Wu通过结合DeepFuse中的自动编码器网络和密集连接体系结构,设计了红外和可见光图像融合框架。在这种方法中,根据设计的融合策略,在训练好的自动编码器网络上进行图像融合操作。图1给出了这种基于自动编码器的融合架构的说明。但是,DenseFuse采用的融合策略仍然过于单一,无法处理更具挑战性的图像融合子任务。此外,DenseFuse使用的浅层网络无法完全提取源图像的深层特征。为了解决这些问题,我们采用了更深层次的自动编码器网络,并伴随着两层融合方案和新的融合策略。
请添加图片描述

End-to-End Method

除了这些基于自动编码器的方法外,在图像融合领域还研究了端到端学习方法。2017年,Liu等人提出了一种基于CNN的多焦点图像融合方法。模糊清晰的图像补丁用于训练网络。之后,他们利用这个网络生成了一个决策图。然后,将源图像和决策图集成在一起,以获得最终的融合结果。受这项工作的启发,我们使用自动编码器网络来生成类似的决策图。在此之后,我们专门为多焦点图像融合任务设计了一种新的融合策略。
此外,Ma等人首先将GAN应用于图像融合任务。通过在红外图像和可见光图像之间建立对抗博弈,他们实现了红外图像和可见光图像的融合任务。然而,也有一些伪影被引入到由FusionGAN产生的融合结果中。2Zhang等人从深度图像手动创建多焦点图像数据集。之后,使用在此数据集上训练的卷积神经网络来处理不同类型的图像融合问题。但是,此网络是在多焦点图像数据集上训练的。因此,此网络在其他图像融合任务上的性能是有限的。另一方面,针对不同的融合任务使用不同的训练数据集,Zhang等人提出了一种统一的融合网络,称为梯度和强度的比例维持 (PMGI)。该网络分为梯度路径和像素强度路径进行信息提取。接下来,他们定义了一个统一的损失函数,该函数可以适应不同的融合任务。但是,他们通过简单地堆叠不同比例的源图像来控制多样化的多模式信息。显然,这种表示不同信息的方法需要改进。相比之下,我们的UNIFusion使用引导过滤技术将源图像分解为基础层和细节层,从而从解纠缠的角度解决了源多样性问题。Xu等人提出了另一种称为U2Fusion的统一融合框架。基于自适应度,设计了一种网络,以保持融合结果与源图像之间的自适应相似性。在此之后,持续学习的概念也被应用于图像融合任务。但是,U2Fusion中使用的损失函数仅由自适应度设计,该自适应度是根据梯度计算的。此测量无法完全表征源图像在不同融合子任务中的重要性。例如,在红外和可见光图像融合任务中,与红外图像相比,在可见光图像中表现出更多的纹理细节,具有主要的梯度线索,从而导致融合结果偏向于可见光图像,而不是具有更显著的目标外观的红外图像。

Ghost Module

Ghost模块最早由Han等人在GhostNet中提出,用于分类任务。该模块可以利用一些小的过滤器从原始卷积层生成更多的特征图。考虑到来自每个卷积层的特征图中包含的冗余,作者通过减少相应的卷积核的数量来改进卷积运算。如图2所示,重影模块首先通过卷积操作生成m个内在特征图。之后,通过对这些内在特征图应用一系列线性操作来生成其余的特征图。这些线性运算的计算成本比普通卷积小得多。为了减少统一图像融合方法的参数数量,我们的自动编码器网络中的每个卷积层都由此重影模块代替
在这里插入图片描述

(比较经典卷积层和用于输出特征图的重影模块。Φ 表示线性运算。在Ghost模块中,使用标准卷积来生成固有特征图。之后,对这些特征图执行几个线性操作以生成其余通道。最后,将这些特征图串联在一起以获得输出。(a) 经典卷积层。(b) Ghost模块)

方法

Overview of the Proposed Method

为了从高频和低频域提供更多的分层表示,我们首先使用相互引导的图像滤波 将每个源图像分解为基础层和细节层。图3给出了不同融合任务中的一些分解示例。
请添加图片描述

分解过程可以分为两个步骤,在第一步中,通过

请添加图片描述

其中muGIF表示互导滤波操作,I是源图像,α T是控制纹理去除程度的参数,T是迭代次数。按照在其实现中使用的设置,我们设置 α T = 0.001和T = 3。之后,细节层可以得到为
在这里插入图片描述
使用这些分解的图像作为输入,我们提出了一种两层融合方案。如图4所示,首先,将来自基础层和细节层的图像馈送到经过训练的自动编码器网络中以提取深层特征。之后,这两个特征图通过不同的融合策略进行融合,然后由解码器重建。最后,通过添加两层的融合结果来获得融合图像。
请添加图片描述
(我们的UNIFusion的两层融合框架。首先通过基于自动编码器的方法分别融合基础层和细节层图像。之后,通过使用这两层的融合结果获得最终结果。我们仅介绍可见光和红外图像融合任务的管道)

Network Architecture

在这里插入图片描述
(统一的网络架构。首先将源图像输入编码器网络以提取深度特征。接下来,在测试阶段使用融合层来融合这些显着特征。最后,解码器重构融合的特征以获得输出图像。重影模块后面的图示数字表示输入和输出特征图的数量)

我们的网络是基于Ghost模块设计的。如图5所示,我们网络的每个卷积层都由一个重影模块代替。此外,为了在不损失性能的情况下加深网络,我们将剩余连接引入编码器网络。我们的剩余连接中的中间特征图的数量固定为32。为了避免卷积操作期间的信息丢失,来自DenseNet的密集连接与这些残留块嵌套在一起。具体地,每个残差块的输入是来自先前残差块的输出的串联。值得注意的是,我们在最终残留块中使用了挤压和激励操作。根据GhostNet中使用的设置,挤压比设置为0.25。
至于解码器,受DeepFuse的启发,我们使用四个重影模块来重建融合的特征图。每个Ghost模块的输出通道数从64个逐渐减少到1个。我们的重影模块中使用的所有卷积核都是标准的3 × 3过滤器。此外,卷积运算的步幅和填充参数都设置为1。这样,特征图的大小在卷积过程中将保持不变。

Loss Function

训练阶段,我们网络的融合层被丢弃。因此,我们实际上正在训练一个自动编码器网络来重建输入图像。为此,我们期望输出图像与源图像共享更多的像素强度分布相似性和结构相似性。除此之外,我们还限制输出图像以保持与输入图像一致的纹理细节。考虑到这些因素,总损失函数定义为
在这里插入图片描述
将总损失函数定义为结构相似性损失来自图像评估度量SSIM,并将其定义为
在这里插入图片描述
均方误差损失可以确保输出图像和输入图像共享相似的像素强度分布。我们将其表述为:
在这里插入图片描述
最后,梯度损失项可以将输出图像约束为具有与输入图像相同的纹理细节。它被定义为
在这里插入图片描述

Fusion Strategy

1) Average Strategy:
基于元素均值操作。我们将这一战略制定为
在这里插入图片描述
2) Max Strategy:
与平均策略类似,max策略也是基于简单的元素式max运算。此策略定义为
在这里插入图片描述
3) Spatial Attention Strategy:
根据基于SR的融合方法和NestFusion中的空间注意模型中使用的方法,向量f1的l1范数: M i (x,y) 可以反映第i个源图像的活动水平。因此,我们定义了第i个图像a的活动级别图Ai
请添加图片描述
之后,使用soft-max运算符计算加权图,将其公式化为
请添加图片描述
最后,通过使用这些加权图获得融合的特征图。此过程定义为
请添加图片描述
4) Gradient Perception Strategy:
为了有效的解决多焦点图像融合的任务,专门设计了一种新的多焦点图像融合策略。为了方便地介绍我们的策略,我们假设输入图像的数量K等于2。多焦点图像融合任务的关键是在抑制模糊区域的同时保留源图像的清晰部分。由于清晰度可以用梯度表示,因此我们将细节层的梯度图输入编码器以提取深层特征

请添加图片描述
(所提出的梯度感知策略的说明: 首先将细节层的梯度图输入编码器网络以提取显着特征。接下来,使用l1范数来获得梯度感知图。之后,通过使用 “choose-max” 策略获得决策图。最后,通过使用具有加权平均策略的该决策图和源图像来生成结果。)

如图6所示,通过使用决策图直接生成融合结果,而不是由解码器重建的结果。类似地,从训练的编码器中提取的第i个图像的梯度图的第j个特征图表示为g j i,i ∈ {1,2},j ∈ {1,…,M}。

首先,我们基于l1范数生成梯度感知图G。这个过程被制定为在这里插入图片描述
然后,利用基于窗口的平均策略得到最终的梯度感知图Gˆ,定义为在这里插入图片描述
在此初始决策图中可能存在一些错误分类的区域,可以通过使用小区域删除技术来缓解这些区域。根据yi7发表文章中使用的设置,removal阈值设置为w × h × 0.05,其中w和h表示输入图像的高度和宽度。在此操作之后,我们再次使用基于窗口的平均策略来获得最终的决策图Gˆ
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值