【多分类约束的GAN : IVIF】

GANMcC: A Generative Adversarial Network With Multiclassification Constraints for Infrared and Visible Image Fusion

(GANMcC: 具有多分类约束的生成对抗网络,用于红外和可见光图像融合)

本文提出了一种新的融合框架,称为具有多分类约束的生成对抗网络 (GANMcC),该框架将图像融合转化为多分布同时估计问题,以更合理的方式融合红外和可见光图像。我们采用具有多分类的生成对抗网络来同时估计可见光和红外域的分布,其中多分类判别的博弈将使融合的结果以更平衡的方式具有这两个分布,从而具有显着的对比度和丰富的纹理细节。此外,我们设计了一个特定的内容损失来约束生成器,主要用来辅助梯度和强度信息的提取中,这将使生成器能够以互补的方式从源图像中提取更充分的信息。

介绍

尽管现有方法在大多数条件下都取得了积极的效果,但仍有一些缺点不容忽视。
第一,传统方法中的活动级测量和融合规则通常需要手动设计,由于源图像的多样性,这变得非常复杂。通常,手动设计的规则是局部的,限制了融合性能。
第二,由于缺乏地面真实性,基于深度学习的方法仅通过设计内容损失函数来实现图像融合。这样学到的分布不够全面。
第三,即使包含在不同类型的源图像中的主要信息是不同的,仍然存在彼此包含的一些次要信息,这希望在最终融合图像中保留。然而,在以前的方法中没有考虑过。
第四,大多数现有方法很难在保持红外和可见固有信息方面达到良好的平衡。例如,某些方法的融合结果倾向于可见图像; 尽管它们包含丰富的纹理细节,但它们没有明显的对比度,无法从背景中清楚地区分目标。相反,一些方法的结果更接近红外图像; 它们具有更好的对比度信息,但纹理不够丰富,例如,更像清晰的红外图像。融合结果中的不平衡信息对后续的上层任务有害,例如目标检测的准确性降低。

我们方法的动机主要由两个方面组成:

首先,充分有效的信息提取是良好融合的前提。以前的方法认为期望的对比度信息来自红外图像,而期望的纹理信息仅包含在可见图像中。但是,我们发现红外图像也有一些纹理细节,在某些情况下甚至非常丰富。同样,可见图像也包含对比度信息,不应忽略此信息。

其次,我们认为保证融合后的图像既有显著的对比度又有丰富的纹理细节的关键(即保证源图像的对比度和梯度信息是均衡的,而不是有偏差的)。这本质上是对两个不同域的分布的同时估计。幸运的是,生成对抗网络 (GAN) 可以在没有监督的情况下更好地估计目标的概率分布,而具有多分类器的GAN可以同时进一步拟合多个分布特征。因此,解决这个问题是合适的。

综上,我们设计了具有多分类约束 (GANMcC) 的生成对抗网络,该网络可以同时保持对比度和纹理细节。我们不仅构造了融合图像和红外图像之间的主强度损失,而且构造了辅助梯度损失,因为红外图像还包含纹理细节,在某些情况下,它们甚至非常丰富。同样,我们构造了融合图像和可见图像之间的主梯度损失和辅助强度信息损失。这种互补损失还允许我们的方法在可见图像曝光过度 (例如,梯度变化很大) 时产生良好的融合结果。此外,我们设计了一种多分类GAN来解决不平衡信息融合的挑战。在我们的模型中,多模态图像融合被转换为同时估计多个分布。具体来说,我们使用多分类器作为鉴别器,它可以确定输入是红外图像和可见图像的概率。对于融合图像,在多分类约束下,生成器期望两个概率都很高,即鉴别器认为它既是红外图像又是可见光图像,而鉴别器(专用于精确地确定融合图像为伪数据)同时期望两个概率很小,即鉴别器确定融合图像既不是红外图像也不是可见图像。在此过程中,我们同时限制了这两个概率,以确保在两个类别中融合的图像为真/假的程度相同。经过连续对抗学习,生成器可以同时拟合红外图像和可见光图像的概率分布,从而产生具有显着对比度和丰富纹理细节的结果。通过这两种设计的配合,我们的方法可以生成具有良好视觉效果的融合图像。

贡献

首先,我们提出了一种新的具有多分类约束的端到端GAN模型,用于红外和可见光图像融合,该模型可以解决现有方法中不平衡融合的挑战。我们的融合结果不仅保留了热目标和背景之间的高对比度,而且还包含丰富的纹理细节。

其次,我们为生成器提出了特定的内容损失。我们在融合图像和两个源图像之间构造了两种损失,即强度损失和梯度损失,并将它们分为主要损失和辅助损失。它们能够迫使生成器从两个源图像 (彼此互补) 中获得更多信息,从而使融合图像包含更全面和丰富的信息。此外,由于这样的互补损失函数,当可见光图像过度曝光时,来自红外图像的相应信息可以弥补它,这使得我们的方法能够在保持显著对比度的同时去除高光。

相关工作

Deep Learning-Based Image Fusion(略)
GAN

1) 原始GAN:
原始GAN由Goodfellow年提出,可以通过两个模块之间的相互博弈来实现无监督分布估计。在这里,我们更正式地描述GAN的对抗过程。游戏中涉及的两个模块分别称为生成器G和鉴别器D。生成器专用于产生可以愚弄鉴别器的假数据,而鉴别器则旨在将生成器产生的假数据与真实数据区分开。假设输入到网络的训练数据为X ={x1,x2,…,xn},服从特定的分布。生成器G估计X的分布,并尽力产生服从该特定分布的假数据G(X)。然后,鉴别器D需要学习区分真实训练数据X和假数据G(X)。综上所述,GAN的目的是将假数据PG的分布逐步逼近到真实数据Pdata的分布,这可以通过以下目标函数来实现:在这里插入图片描述
作为对抗性关系,生成器和鉴别器在不断的迭代训练中相互促进,以不断提高自己的伪造或辨别能力。当这两个分布之间的距离足够小时,鉴别器无法区分真实数据和假数据。然后,生成器可以说已经成功地估计了训练数据的分布。

2) LSGAN:
随后的研究发现,原始GAN的训练过程非常不稳定,并且生成的图像质量不高。为了改善这一现象,Mao等人提出用最小二乘损失函数代替交叉熵损失函数来指导GAN的优化。损失函数定义如下:
在这里插入图片描述
其中a和b是指导鉴别器优化的概率标签。具体地,a是真实数据对应的概率标签,b是生成器产生的假数据对应的概率标签。此外,c是指导生成器优化的概率标签,也就是说,c是生成器期望鉴别器确定假数据的标签。显然,b应该尽可能接近0。相反,a和c应尽可能大,接近1。
与上述现有方法相比,所提出的模型主要有两个新的技术贡献。首先,设计了一种新的有效的内容损失函数。与最先进的FusionGAN不同,所提出的内容损失函数使用了主和辅助信息的概念,可以从源图像中提取更充分的强度和梯度信息。其次,我们采用多分类器作为鉴别器,以同时估计两个不同域的分布,即可见光和红外。因为概率分布的一致性将使融合结果具有目标分布的最显著特征,所以发生器可以产生同时具有红外和可见光特征的融合结果,即显著的对比度和丰富的纹理细节。

方法

融合框架:
请添加图片描述
(鉴别器的输出是1 × 2概率向量,指示输入图像的概率Pvis是可见图像,输入的概率Pir是红外图像,当鉴别器确定融合图像的Pvis和Pir都很大时,获得具有平衡信息的融合图像)
一方面,我们设计了相应的内容损失以充分提取此类有价值的信息,其中对比度信息由强度表示,纹理信息由梯度表示。
另一方面,我们还设计了生成器的结构,在该结构中,我们将输入分为梯度路径和对比度路径。对于梯度路径,我们沿通道尺寸连接了两个可见图像和一个红外图像作为输入。同样,对于对比度路径,我们将两个红外图像和一个沿通道尺寸的可见图像连接为输入。生成器的详细输入和输出可以在图4中找到。
请添加图片描述
以差异比率级联形式构造的输入可以驱动网络不平等地提取对比度和梯度信息。在这种特定的内容损失和网络设计下,生成器可以从可见图像中获取主梯度和辅助对比度信息,以及从红外图像中获取主对比度和辅助梯度信息。以上信息可以相互补充。

Loss Function

Loss LG 和 loss LD 分别用于指导发生器和鉴别器的优化:
1) Loss Function of Generator:
指导生成器优化的损失函数由两部分组成,即约束信息提取的内容损失LGcon和对抗损失LGadv平衡。我们将其形式化为
在这里插入图片描述
不同的图像强调的信息不同,对于红外图像,其主要特点是具有明显的对比度,反映了场景的热辐射信息,并且可以从背景突出目标。因此,主要信息是其强度分布,主要强度损失定义为:
在这里插入图片描述

其中,Ifed是融合图像,可以形式化为G(Ivis,Iir),Iir是红外源图像。至于可视图像,它包含丰富的纹理细节,符合人类眼睛的观察习惯。因此,从可见图像获得的主要信息是其梯度信息,主梯度损失定义为:
在这里插入图片描述
如前所述,红外图像也有一些纹理细节,可见图像也包含对比度信息。因此,我们提出了辅助损耗的概念,即,我们在融合图像和红外图像之间构造了辅助梯度损耗Lgrad aux,在融合图像和可见图像之间构造了辅助强度损耗Lint aux,为:
在这里插入图片描述
综上所述,含量损失由四部分组成,即主强度损失、主梯度损失、辅助强度损失。它可以表述为:
在这里插入图片描述
其中 β(·) 是一个常数,应进行调整以实现这些项之间的主次关系。此外,梯度损失项通常小于强度损失项,因此需要调整 β(·) 以使其在优化过程中同等重要。因此,β(·) 的设定规则可以概括为:
在这里插入图片描述
为了实现各种信息之间的平衡,我们将带有鉴别器的对抗性损失引入生成器的损失函数中,该函数可以定义为:
在这里插入图片描述
其中d是判别器确定融合图像的概率标签。在我们的工作中,鉴别器是输出1 × 2概率向量的多分类器。因此,D(·)[1] 表示向量的第一项,即融合图像为可见图像的概率。类似地,D(·)[2] 表示向量的第二项,即融合图像为红外图像的概率。值得注意的是,我们对这两个概率都使用该标记d,因此,鉴别器具有确定融合图像是红外图像还是可见图像的相同概率。在这里,由于生成器期望鉴别器无法区分融合图像和真实数据,因此将d设置为1。

2) Loss Function of Discriminator:
鉴别器是一个多分类器,其损失函数必须不断提高其识别能力,并且可以有效地识别什么是红外图像或可见光图像。鉴别器的损失函数LD由三部分组成,即可见光图像,红外图像和融合图像的决策损失。我们将这三个损失表示为LDvis、LDir和LDfused:
在这里插入图片描述
考虑到鉴别器输出的1 × 2向量,我们有Pvis = D(x)[1] 和Pir = D(x)[2]。当输入是可见图像时,预计Pvis应接近1,Pir接近0。相应的损失定义为:
在这里插入图片描述

其中a1和a2为概率标签,a1设为1,a2设为0,也就是说,当输入可见图像时,鉴别器想要判断为可见图像的概率较大,红外图像的概率较小。

类似地,红外损失项定义为:
在这里插入图片描述
最后,当输入图像为融合图像时,损失函数公式化为:
在这里插入图片描述
我们还对两个概率使用相同的标签c来实现平衡,也就是说,在鉴别器的观点中,融合图像是伪可见图像和伪红外图像的程度相同。

Network Architecture

1) Generator Architecture:
请添加图片描述

对于梯度路径,我们希望它负责提取纹理信息,即高频特征。在我们看来,纹理信息主要包含在可见图像中,其次包含在红外图像中。因此,主要和次要连接策略用于构造输入。我们使用两个可见图像和一个红外图像沿通道作为输入进行协调
对于对比度路径,我们期望它负责对比度信息的提取,该信息主要包含在红外图像中,次要包含在可见图像中。因此,我们使用两个红外图像和一个可见图像沿通道进行协调。
在信息提取的每个路径中,采用四个卷积层进行特征提取。前两层使用5 × 5卷积核,后两层采用3 × 3,均具有批归一化和Leaky ReLU激活功能。然后,我们融合从两条路径中提取的特征,并使用调和和卷积的策略来实现这一目的。为了完全合并信息,我们沿着通道交叉协调两个特征图。在最后一层中,我们使用大小为1 × 1的内核和tanh激活函数。值得注意的是,我们将所有图层的步幅设置为1,因此所有要素图的大小都不会改变。

2) Discriminator Architecture:

请添加图片描述
我们的鉴别器本质上是一个多分类器,它可以估计输入图像的每个类别的概率。它的输出是大小为1 × 2的概率向量。我们的鉴别器由四个卷积层和一个线性层组成。四个卷积层使用3 × 3卷积核和Leaky ReLU激活函数,后三个也使用批归一化我们在所有卷积层中设置步幅为2。最后一个线性层根据前四个卷积层提取的特征对输入进行判别,后者输出分类概率。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值