FusionGAN:VIIF

FusionGAN: A generative adversarial network for infrared and visible image fusion

(FusionGAN: 用于红外和可见光图像融合的生成对抗网络)

介绍

FusionGAN(端到端):可以融合具有不同分辨率的图像,将融合定义为保持红外热辐射信息与保留可见外观纹理信息之间的对抗博弈;生成器尝试生成具有主要红外强度以及其他可见梯度的融合图像,而鉴别器旨在迫使融合图像具有更多的纹理细节。

贡献

首先,我们提出了一种生成对抗体系结构,并设计了专门用于红外和可见光图像融合的损失函数。还讨论了用于图像融合的GANs的可行性和优越性。据我们所知,这是第一次采用GANs来解决图像融合任务。

其次,所提出的FusionGAN是一个端到端模型,其中可以从输入源图像中自动生成融合图像,而无需手动设计活动水平测量或融合规则。

再次,我们对公共红外和可见光图像融合数据集进行了实验,并与最新方法进行了定性和定量比较。与以前的方法相比,所提出的FusionGAN可以获得看起来像锐化的红外图像,具有清晰的突出显示的目标和丰富的纹理的结果。

最后,我们推广了FusionGAN,以融合具有不同分辨率的源图像,例如低分辨率红外图像和高分辨率可见图像。它可以生成高分辨率的结果图像,该图像不会受到红外信息上采样引起的噪声的影响。

相关工作

传统方法

1)基于多尺度变换的方法:多尺度变换可以将原始图像分解成不同尺度的分量,其中每个分量代表每个尺度下的子图像,而现实世界的物体通常包含不同尺度下的分量。通常,基于多尺度变换的红外和可见光图像融合方案包括三个步骤首先,将每个源图像分解为一系列多尺度表示。然后,根据给定的融合规则融合源图像的多尺度表示。最后,使用融合表示上的相应inverse multi-scale变换来获取融合图像。

2)稀疏表示图像融合方法: 旨在从大量高质量的自然图像中学习一个过完备(over-complete dictionary)的字典。然后,源图像可以被学习的字典稀疏地表示,从而潜在地增强有意义且稳定的图像的表示 。同时,基于稀疏表示的融合方法使用滑动窗口策略将源图像划分为几个重叠的补丁,从而有可能减少视觉伪影并提高对错误配准的鲁棒性。

3)基于神经网络的方法: 模仿人脑的感知行为来处理神经信息,神经元之间的相互作用表征了神经元信息的传递和处理,神经网络具有较强的适应性和容错能力以及抗噪声能力,大多数基于神经网络的红外和可见光图像融合方法都采用脉冲耦合神经网络或其变体 。

4)基于子空间的方法: 旨在将高维输入图像投影到低维空间或子空间中。对于大多数自然图像,存在冗余信息,并且低维子空间可以帮助捕获原始图像的内在结构。因此,基于子空间的方法,包括主成分分析,非负矩阵分解和独立成分分析,已成功应用于红外和可见光图像融合

5)基于显著性的方法: 基于这样一个事实,即注意力通常被比它们的邻居更重要的对象或像素捕获,基于显著性的融合方法可以保持显著对象区域的完整性并提高融合图像的视觉质量 。
以上提到的红外和可见光图像融合方法都有其优缺点,混合模型结合其优点提高了图像融合性能,其他红外和可见光图像融合方法可以激发图像融合的新思路和新观点,这些方法基于全变,模糊理论,熵等

基于深度学习的方法
近年来,由于深度学习具有很强的提取图像特征的能力,它也成功地应用于图像融合。在多焦点图像融合中,Liu等人训练了深度卷积神经网络 (CNN),共同生成活动水平测量和融合规则,他们还应用他们的模型融合红外和可见光图像。在多模态图像融合中,Zhong等人提出了一种基于CNN的联合图像融合和超分辨率方法。此外,Liu等人介绍了用于图像融合的卷积稀疏表示,其中反卷积网络打算构建层的层次结构,每一层都由一个编码器和一个解码器组成。在遥感图像融合中,Masi等人提出了一种有效的三层体系结构来解决扩锐化问题,其中通过添加多个非线性辐射指数图来增强输入以提高融合性能。
现有的基于深度学习的图像融合技术通常依赖于CNN模型,该模型具有重要的前提条件,即应提前获得地面真相。对于多焦点图像融合和泛锐化问题,可以很好地定义地面真相,例如,没有模糊区域的清晰图像或具有与相应的全色图像相同分辨率的多光谱图像。但是,在红外和可见光图像融合的任务中,为融合图像定义标准是不现实的,因此不考虑建立地面真相。在此基础上,现有的红外和可见光图像融合技术不是学习需要地面真相融合图像的端到端模型,而是学习一个深度模型来确定源图像中每个补丁的模糊程度,然后据此计算权重图,生成最终融合图像

生成对抗网络及其变体

GAN是通过对抗过程估计生成模型的流行框架,深度卷积GAN (DCGANs) 成功地将一类CNN引入到GAN中,而最小二乘生成对抗网络 (LSGANs) 克服了常规GAN中消失的梯度问题,在学习过程中比较稳定.

1) 生成对抗网络(Generative adversarial networks)
GAN框架由两个对抗模型组成: 生成模型G和判别模型D。生成模型G可以捕获数据分布,判别模型D可以估计样本来自训练数据而不是G的概率。更具体地说,GAN在鉴别器和生成器之间建立了对抗博弈,生成器将先验分布为Pz的噪声作为输入,并试图生成不同的样本来欺骗鉴别器,鉴别器旨在确定样本是来自模型分布还是数据分布,最后,生成器生成无法通过鉴别器区分的样本;在数学上,生成模型G旨在生成样本,其分布 (PG) 试图近似真实训练数据的分布 (Pdata),G和D进行minimax两人游戏如下:请添加图片描述
PG不是显式表示的,训练时D和G需要同步,因此常规的GAN一般不稳定,很难得到很好的训练模型。

2)Deep convolutional GANs(DCGANs)
DCGANs可以弥合监督学习的CNN和无监督学习的GANs之间的差距。由于传统的GANs是不稳定的,以训练一个好的模型,因此CNNs的体系结构应适当设计,以使传统的GANs更加稳定,并且与传统的CNNs相比主要有五个不同。

第一,在生成器和鉴别器中都不使用池化层。取而代之的是,将分频卷积应用于鉴别器中以学习其自身的空间下采样,并在生成器中使用分频卷积来实现上采样。
第二,将batchnormalization 层引入发生器和鉴别器。由于初始化不良总是会产生很多训练问题,因此 batchnormalization 层能够解决这些问题,并避免在更深的模型中消失梯度。
第三,在更深的模型中移除完全连接的层。
第四,除最后一个激活层外,发生器中的所有激活层均为整流线性单元 (ReLU),最后一层为tanh激活。
第五,鉴别器中的所有激活层都是leaky ReLU激活。因此,训练过程变得更加稳定,并且可以提高生成结果的质量

3)Least squares GANs(最小二乘GANs)
尽管GANs取得了巨大的成功,但仍然存在两个关键问题需要解决
首先是如何提高生成图像的质量。因此提出了DCGANs。
其次是如何提高训练过程的稳定性。已经提出了许多通过探索GANs的目标函数来处理这个问题的工作,例如WassersteinGANs (WGANs) ,其收敛速度比regular GANs慢得多 。此外,regular GANs对判别器采用sigmoid交叉熵损失函数,这可能导致学习过程中的梯度消失问题(因为sigmoid是中心化函数)。为了克服上述两个问题,Mao等人提出了最小二乘生成对抗网络 (LSGANs),该网络对判别器采用最小二乘损失函数,LSGANs的目标函数定义为

请添加图片描述
在编码方案同时用于鉴别器和生成器的情况下,a和b分别表示假数据和真数据的标签,c表示生成器希望鉴别器相信假数据的值。
有两种方法可以确定公式中的a,b和c的值:首先是设置b-c = 1和b-a = 2,从而最小化等式,从而产生最小化Pdata+Pg和Pg之间的Pearson χ2。
二是设置c = b,可以使生成器生成的样本尽可能真实。上面提到的两种方法通常会得到相似的性能。

在LSGANs中,惩罚位于决策边界很远的样本使生成器生成的样本接近决策边界并生成更多的梯度。因此,LSGANs比regular GANs有两个优势。一方面,LSGANs可以生成比regular GANs更高质量的图像。另一方面,在训练过程中,LSGANs的表现比regular GANs更稳定。

提出的方法FusionGAN

问题表述

我们将红外和可见光图像融合问题表述为对抗性问题,如下图所示。首先,我们将红外图像Ir和可见光图像Iv连接在通道维度上。然后,将级联图像馈送到生成器G θ G中,并且G θ G的输出是融合图像If。请添加图片描述

由于本文设计的生成器的损失函数 ,在没有鉴别器D θ D的情况下,If倾向于保留红外图像Ir的热辐射信息并保留可见图像Iv的梯度信息。之后,我们将融合的图像If和可见图像Iv输入到鉴别器D θ D中,该鉴别器旨在将If与Iv区分开FusionGAN在生成器G θ G和鉴别器D θ D之间建立了对抗博弈,If将逐渐在可见图像Iv中包含越来越多的详细信息。在训练阶段,一旦生成器G θ G生成了无法通过鉴别器D θ D区分的样本 (即,If),我们就可以获得预期的融合图像If。测试过程如下图所示,我们仅将If和Iv的串联图像输入到训练好的生成器G θ G中,G θ G的输出是我们最终的融合结果
请添加图片描述

损失函数(Loss Function)

我们的fusionan的损失函数由两部分组成,即生成器Gθ G的损失函数和鉴别器D θ D的损失函数。在下文中,我们将分别介绍它们。首先,生成器GθG的损失函数由两方面组成

请添加图片描述
其中LG表示总损失:
1)VFusionGAN(G) 表示生成器G θ G和鉴别器D θ D之间的对抗性损失,定义如下:
请添加图片描述

2)Lcontent表示内容损失,λ 用于在VFusionGAN(G) 和Lcontent之间取得平衡。由于红外图像的热辐射信息以其像素强度为特征,而可见图像的纹理细节信息可以部分地以其梯度为特征 ,因此我们融合的图像要与Ir相似的强度和与Iv相似的梯度。具体来说,Lcontent的定义如下:
请添加图片描述
其中H和W分别表示输入图像的高度和宽度,||·||F代表矩阵Frobenius范数,而 ▽表示梯度算子。Lcontent的第一项旨在保持融合图像If中的红外图像Ir的热辐射信息,Lcontent的第二项旨在保留可见光图像Iv中包含的梯度信息,ξ 是控制两个项之间的权衡的正参数。

实际上,在没有D θ D的情况下,我们还可以获得融合图像,该融合图像可以在红外图像中保留热辐射信息,而在可见光图像中保留梯度信息。但这通常还不够,因为仅使用梯度信息就无法完全表示可见图像中的纹理细节 (我们将在实验中验证此问题)。因此,我们在生成器G θ G和鉴别器D θ D之间建立了对抗博弈,以根据可见图像Iv调整融合图像。这可以使If包含更多的纹理细节。形式上,判别器D θ D损失函数如下:
请添加图片描述

其中a和b分别表示融合图像If和可见光图像Iv的标签,D θ d (Iv) 和D θ D (If) 分别表示可见图像和融合图像的分类结果。鉴别器旨在根据从融合图像中提取的特征将融合图像与可见图像区分开。我们使用最小二乘损失函数,该函数服从最小化Pearson χ2散度。它使训练过程更加稳定,判别器的损失函数收敛迅速。

网络架构

1)生成器网络架构Network architecture of generator

请添加图片描述

我们的生成器G θ G的网络架构如上图所示,G θ G 是一个简单的五层卷积神经网络,其中第一层和第二层使用5 × 5滤波器,第三层和第四层使用3 × 3滤波器,最后一层中有1 × 1个过滤器。每层中的步幅设置为1,卷积中没有填充操作。我们的生成器的输入是无噪声的串联图像(为了提高生成图像的多样性,通常通过卷积层提取输入图像的特征图,然后通过转置卷积层将图像重建为与输入图像相同大小的图像)对于红外和可见光图像融合,每个下采样过程都会在源图像中删除一些细节信息,但是这些细节信息对融合很重要。因此,我们只引入卷积层而不进行下采样。这也可以保持输入和输出的大小相同,因此,在我们的网络中不需要转置卷积层。此外,为了避免梯度消失的问题,我们遵循 deep convolutional GAN的规则进行批处理归一化和激活功能。为了克服对数据初始化的敏感性,我们在前四层采用了批归一化,批归一化层可以使我们的模型更加稳定,也可以帮助梯度有效地向后传播到每一层。对于激活功能,我们在前四层中使用leaky ReLU激活功能,在最后一层中使用tanh激活功能。

2)鉴别器网络架构Network architecture of discriminator
请添加图片描述

鉴别器的网络体系结构。我们的鉴别器D θ D的网络架构是一个简单的五层卷积神经网络,如上图所示。从第一层到第四层,我们在卷积层中使用3 × 3滤波器,并将步幅设置为2,无需填充。这与生成网络不同。根本原因是鉴别器是一个分类器,它首先从输入图像中提取特征图,然后对其进行分类。因此,通过将步幅设置为2,它的工作方式与池化层相同。为了不在我们的模型中引入噪声,我们仅执行填充操作在第一层的输入图像上,其余三个卷积层不执行填充。从第二层到第四层,我们使用批归一化层。此外,我们在前四层中使用leaky ReLU激活功能。最后一层是线性层,主要用于分类。

融合不同分辨率图像(低分辨率Infrared和高分辨率Visible)

源红外图像下采样---->得到低分辨率图像----->给红外图插值,到与可见光图像相同的分辨率------>重新设计Lcontent(把融合图下采样到红外图的分辨率)

所有比较方法中源图像应该具有相同的分辨率。因此,我们必须先通过下采样可见光图像或上采样红外图像来消除分辨率差异。显然,下采样的可见光图像会导致纹理信息丢失,上采样的红外图像会模糊热辐射信息。为了避免信息的丢失,所有的比较方法都选择在融合前对红外图像进行上采样。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值