基于熵的自适应融合模块和掩模引导卷积神经网络的红外与可见光图像融合

Infrared and visible image fusion with entropy-based adaptive fusion module and mask-guided convolutional neural network------(基于熵的自适应融合模块和掩模引导卷积神经网络的红外与可见光图像融合)

背景

图像融合算法应该在保留红外图像的热辐射信息的同时保留可见光图像的细节纹理信息。同时,在融合过程中不应有信息丢失和融合伪影。如果不能合理选择变换方法和融合规则,融合后的图像容易出现信息丢失、块效应和融合伪影(如光晕)等问题。

问题:传统图像融合中存在的细节信息丢失、融合伪影、融合不自然等问题,提出了一种新的红外与可见光图像融合算法。

总览:本文的算法是使用引导滤波将图像分解成一个基本层和一个细节层。基本层主要体现图像的像素强度信息,细节层考虑图像的纹理细节。通过基础层和细节层最终重构出融合图像。此外,基础层的融合弥补了细节融合层的低亮度,这使得融合图像看起来更自然。

引导滤波原理

首先使用一个均值滤波(一个像素由周围的像素的均值决定)对图像进行模糊处理得到基础层,滤波器越大,得到的基层模糊程度越高。而细节层是原图减去基础层图,随着滤波半径的增大,细节层的信息也会相应增加。

原图

在这里插入图片描述

均值滤波后得到的基础层

在这里插入图片描述

源图像与基础层做差得到的细节层。

在这里插入图片描述

网络结构

网络整体分为:基础层细节层

在这里插入图片描述

图像分解

采用引导滤波来将图像分成基础层图像和细节层图像

对源图像I进行引导滤波操作得到B1和D,D是源图像的细节层,B1是源图像的第一基础层,对B1再次进行引导滤波得到B2,B2是第二基础层。 GF是引导滤波。

在这里插入图片描述

基础层融合

  • 第一基础层的融合

第一基础层的融合是将第一基础层的红外图像和可见光图像送入到自适应融合模块中进行融合。自适应就是根据两个源图像所包含的信息来确定它们在融合中所占的权重。

如何测量源图像的信息量呢,使用深度神经网络对图像进行无参考的图像质量评估(IQA),还使用客观指标—**-熵(EN)**来衡量图像中的平均信息量。熵的定义如下,N是灰度等级 N=255 ,pi是每个灰度级出现的概率。EN越大,图像所包含的信息越多。
在这里插入图片描述

结合IQA和EN来确定图像的信息量Et(t代表红外还是可见光)

在这里插入图片描述

使用函数Y来将wIR和wVI映射到(0,1)之间。为了增强权重的差异,我们使用o1和o2来缩放值。

在这里插入图片描述

Wir 和 Wvi就是红外与可见光图像的信息量权重信息。然后根据权重进行第一基础层的融合。B1就是第一基础层的特征。B1F就是第一基础层的融合特征。

在这里插入图片描述

自适应融合模块

在这里插入图片描述

  • 第二基础层的融合

第一级基本层的低频信息不充分,与细节层的融合效果不理想。为了减少图像的低频信息丢失,我们对第一级基本层进行滤波操作,以获得第二级基本层。考虑到计算的复杂性,我们使用最大绝对值规则来融合这一层。公式如下:

在这里插入图片描述

  • 融合

将第一和第二基础层的融合进行逐像素相加得到基础层的融合结果。

在这里插入图片描述

细节层的融合

细节层的融合框架如图所示,在这一阶段,使用深度卷积神经网络进行特征提取,并且在训练阶段结合红外图像的像素级别的掩码提出了掩码损失。深度卷积神经网络分别特征提取特征融合

在这里插入图片描述

  • 特征提取网络

该网络由一个公共层和三个具有剩余结构的块组成。公共层由卷积核为5 × 5的卷积层和LReLU激活函数组成。具有残差结构的块由五个卷积层(conv1,conv2,conv3,conv4,conv5)组成,其中conv2和conv5的卷积核为3 × 3,其他卷积核为1 × 1。在conv1和conv2之后使用LReLU激活函数。Conv4和conv5是残余结构的跳跃连接层。卷积核分别为1 × 1和3 × 3,得到图像的不同感受野。跳跃连接改善了信息流,避免了梯度消失和网络退化的问题。

  • 特征融合网络

特征融合网络由四个卷积块组成,采用与特征提取网络相同的网络结构。我们将最后一层的激活函数改为Tanh,以确保融合图像的变化范围与输入图像的变化范围一致。将来自特征提取网络的红外和可见光特征图像拼接并输入到特征融合网络中。最后,获得融合的细节层。我们的网络不采用任何下采样操作,大大减少了图像融合任务中下采样带来的信息损失,并且输出图像与输入图像大小相同。

  • 重建融合图像

根据基础层融合图像和细节层融合图像来生成融合图像。采用加权平均的准则进行图像融合

在这里插入图片描述

损失函数

损失函数在模型的性能中起着关键作用。它用于评估模型的预测值和真实的值之间的差异。通常,损失值越小,模型的鲁棒性越好。由于没有地面真值融合图像可供参考,在构造损失函数时,我们将图像分为前景目标部分和背景部分。我们的宽松的优化目标是最终的融合图像可以包含尽可能多的红外图像的目标信息和可见光图像的背景纹理信息。因此,我们引入前景目标掩模M和背景掩模1-M。值得注意的是,我们只在网络训练阶段使用目标掩码。首先,我们使用LabelMe工具箱[38]逐像素标记红外图像上的前景目标,并将其转换为二进制目标掩模。然后,我们将它们反转以获得背景掩模。如图4所示,将红外图像的细节层(DIR)乘以目标掩模,得到红外前景目标部分。可见图像的细节层(DVI)乘以背景掩模以获得可见图像的背景细节部分。类似地,通过将融合细节层分别与目标掩模和背景掩模相乘,可以获得融合细节层的前景目标部分和背景部分。最后,我们根据这些区域构造特定的损失函数来训练网络,进而得到融合细节层(DF)

在这里插入图片描述

总损失函数分为三部分,像素损失、梯度损失和结构相似度损失。

  • 像素损失

红外图像中的显著性目标像素强度大,对比度高,我们希望融合图像在显著性目标区域与红外图像接近,而在背景区域与可见光图像接近。 其中我们需要突出显著性目标,所以在显著性目标区域的强度损失赋予一个大的权重α。

在这里插入图片描述

  • 梯度损失

可见光图像的细节和纹理信息是我们想要的,因此在背景区域融合图像的梯度信息应该更趋向于可见光图像。并且并且赋予一个大权重信息β。

在这里插入图片描述

  • 结构相似度损失

使用结构相似性信息来指导融合图像在显著性目标区域与红外图像的亮度、结构、对比度接近。而在背景区域与可见光图像接近。结构相似性定义如下。

在这里插入图片描述

在这里插入图片描述

实验讨论
  • 训练:我们在TNO数据集上选择了20对图像,它们与测试图像不同。具体来说,我们使用重叠裁剪方法来扩展更多的训练数据。我们将源图像切割成128 × 128大小的图像,步长为24。最后,使用6921对图像进行训练,并且将每个源图像标准化为[-1,1]。为了克服信息丢失的问题,我们将所有体积层的填充和步长设置为1。训练参数设置如下:batch size = 32,迭代次数= 30,学习率= 10 - 3。

  • 测试:在TNO选取了48对图像进行测试、RoadScene选择了35对图像,包含道路,车辆和行人场景的图像进行测试,在VIFB上选择21对红外和可见光图像进行测试。

  • 对比的算法:比较了10种现有的融合算法,其中LP [21],GTF [40],IFEVIP [41],MGFF [42],TIF [43]基于传统方法,GAN [15],SDNet [44],STF [34],GANMcC [32],PIAFusion[45]基于深度学习。对于所比较的九种算法,我们都使用了本文中的默认参数。实验表明,该算法是可行和有效的。

  • 评估指标:为了进一步验证算法的有效性,我们选择在QABF [30], CORR [31], [40], SCD [47], VIF[47]和SSIM[48]评估上面的算法。所有指标的值越大,更好的融合效果。

在TNO上的主、客观比较

在这里插入图片描述

在这里插入图片描述

在ViFB上的主客观比较

在这里插入图片描述

在这里插入图片描述

在RoadScene上的主、客观比较

在这里插入图片描述

在这里插入图片描述

结论

本文提出了一种基于熵的自适应融合模块和掩模引导卷积神经网络的红外和可见光图像融合算法。现有的大多数算法都是独立地保留红外和可见光图像的信息,这容易导致图像融合过程中的信息丢失问题。我们建议将红外或可见光图像分解为一级基本层,二级基本层和细节层。图像自适应融合模块能够根据图像质量和信息熵自适应地融合红外和可见光图像的第一级基本层。在融合细节层时,我们联合收割机图像的掩模、像素、梯度和结构相似性来构造一个损失函数来训练网络,可以更好地融合图像。最后,重建图像。在TNO、RoadScene和VIFB数据集上的实验表明,该算法具有更好的性能。

贡献点

  • 使用引导滤波器将源图像分解为包含低频信息的第一级和第二级基本层以及包含高频信息的细节层。并且,采用不同的融合规则对各层进行融合。
  • 对于第一级的基本层融合,我们提出了一个基于熵的图像自适应融合模块。图像质量越好,信息熵越高,融合权值越大。考虑到计算复杂度,第二级基本层采用最大绝对值准则进行融合。
  • 构造了一种用于细节层融合的端到端掩模引导卷积神经网络。由于没有参考的地面真值融合图像,我们放宽的优化目标是最终融合图像包含尽可能多的红外图像的前景目标信息和可见光图像的背景纹理信息。因此,手动注释的红外图像的逐像素掩模被用于在训练阶段指示的目标区域,并提出了掩模损失。
  • 大量实验表明,该算法生成的融合图像在一定程度上克服了信息丢失和图像伪影等问题,具有比现有大多数算法更好的性能。

在我看来本文的创新之处:

  • 将机器学习和深度学习相结合来处理问题。引入了机器学习中的引导滤波对图像做分解操作。
  • 自适应权重是当前比较热的创新点,通过测量图像中包含的信息的多少来确定该图像在融合过程中的权重占比。
  • 结合掩码设计的损失函数使当前融合图像可以达到较好融合效果。

目前已知的红外掩码生成:

  • 使用LabelMe工具手工标注的
    • STDFusionNet: An Infrared and Visible ImageFusion Network Based on Salient Target Detection
    • Infrared and visible image fusion with entropy-based adaptive fusion module and mask-guided convolutional neural network
  • 使用阈值的
    • Infrared and visible image fusion based on infrared background suppression
  • 使用VGG提取多尺度特征图来生成自适应掩码
    • MUFusion: A general unsupervised image fusion network based on memory unit
  • 使用分割网络将目标区域和背景区域分割出来,形成掩码
    • SGFusion
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值