VIIF:深度图像分解

DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion

(DIDFuse: 用于红外和可见光图像融合的深度图像分解)
本文提出了一种新颖的基于自动编码器 (AE) 的融合网络。其核心思想是编码器将图像分别分解为具有低频和高频信息的背景和细节特征图,解码器恢复原始图像。为此,损失函数使源图像的背景/细节特征图相似/不相似。测试阶段,通过融合模块分别合并背景和细节特征图,并由解码器恢复融合图像。

介绍

(简记)
当前,深度学习 (DL) 已成为IVIF领域的一种普遍工具。基于DL的方法可以分为三类。
第一组基于生成对抗网络 (GANs)。
第二组 是图像多尺度变换的扩展。一般而言,它们通过基于过滤器或基于优化的方法将图像从空间域转换为背景和细节域。背景图像被简单融合。由于细节图像中存在高频纹理,因此它们融合了从预先训练的网络 (例如,VGG 提取的细节图像的特征图。最后,通过合并融合的背景图像和细节图像来恢复融合图像。缺点: DL仅在融合阶段使用,并且它们在分解阶段采用基于滤波器或优化的方法。
第三组由基于AE的方法组成。在训练阶段,训练一个AE网络。测试一下阶段,它们融合源图像的特征图,然后通过解码器以恢复融合图像。综上所述,在基于DL的方法中,通常采用深度神经网络 (DNN) 来提取输入图像的特征,然后利用一定的融合策略来组合特征以完成图像融合任务。

贡献

(1) 这是VIIF任务的第一个深度图像分解模型,其中融合和分解都是通过AE网络完成的。编码器和解码器分别负责图像分解和重建。在训练阶段,对于分解阶段,损失函数迫使两个源图像相似/不相似的背景和详细特征图。同时,对于重建阶段,损失函数保持源图像和重建图像之间的像素强度以及可见图像的梯度细节。测试一下阶段,根据特定的融合策略分别融合测试对的背景和细节特征图,然后可以通过解码器获取融合的图像。
(2) 据我们所知,现有IVIF方法的性能仅在TNO数据集中的有限数量的手工挑选的示例上得到验证。但是,我们在三个数据集上测试了我们的模型,包括TNO、FLIR和NIR。总共有132个测试图像,包括室内和室外场景,以及日光和夜灯照明。与SOTA方法相比,我们的方法可以鲁棒地创建具有更明亮目标和更丰富细节的融合图像。它可以潜在地用于目标识别和跟踪。

相关工作

U-Net and Skip Connection

U-Net被应用于生物医学图像分割,类似于AE网络,U-Net由用于特征提取的收缩路径和用于精确定位的扩展路径组成。与AE相比,U-Net中的收缩和扩展路径存在相应特征图的通道级联。以这种方式,它可以提取 “thicker” 的特征,这些特征有助于在下采样期间保留图像纹理细节。类似U-Net的对称网络用于图像恢复。它采用跳过连接技术,其中将卷积层的特征图添加到相应的反卷积层,以增强神经网络的信息提取能力并加速收敛。

Two-Scale Decomposition

作为多尺度变换的子集,IVIF中的两尺度分解将原始图像分别分解为具有背景和目标信息的背景图像和细节图像。
在已有文献中,给定图像I,它们通过求解以下优化问题获得背景图像Ib:
请添加图片描述
类似地,使用box滤波器来获得背景图像,获得细节图像的方法与 [Li和Wu,2018] 相同。分解后,以不同的标准分别融合背景和细节图像。最后,通过结合融合的背景图像和细节图像来重建融合图像。

方法

二尺度分解将输入图像分解为包含具有大尺度像素强度变化的低频信息的背景图像和体现具有小尺度像素强度变化的高频信息的细节图像。当前,大多数算法都包含某些先验知识,并采用基于过滤器或优化的方法来分解图像。因此,它们是手动设计的分解算法。我们强调图像分解算法本质上是特征提取器。形式上,他们将源图像从空间域转换为特征域。众所周知,DNN是一种有前景的数据驱动特征提取器,与传统的手动设计方法相比具有很大的优势。不幸的是,它缺乏用于IVIF任务的基于DL的图像分解算法。

Network Architecture

我们的神经网络由编码器和解码器组成。如下图所示,编码器被馈送有红外或可见图像,并生成背景和细节特征图。然后,网络沿着通道连接了两种特征图。最后,级联特征图通过解码器恢复原始图像。为了防止特征图的细节信息在多次卷积后丢失,并加快收敛速度,我们将特征图从第一和第二卷积添加到最后和倒数第二卷积的输入,并且添加策略是将相应的特征图沿通道串联起来。因此,源图像的像素强度和梯度信息可以更好地保留在重建图像中。请添加图片描述
表1列出了网络配置。编码器和解码器分别包含四个和三个卷积层。每一层由填充,3 × 3卷积,批归一化和激活函数组成。第一层和最后一层利用反射填充来防止融合图像边缘的伪影。conv3和conv4的激活函数被设置为双曲正切函数 (tanh),因为它们输出背景和细节特征图。至于conv7,它被sigmoid函数激活,因为它重建了原始图像。其他层之后是参数校正线性单元 (PReLU)。
请添加图片描述

Loss Function

在训练阶段,我们的目标是获得一个对源图像进行二尺度分解的编码器,同时,获得一个能够融合图像并很好地保存源图像信息的解码器。训练过程如图1(a) 所示。请添加图片描述
图像分解:
背景特征图用于提取源图像的公共特征,而细节特征图用于从红外和可见图像中捕获不同的特征。因此,我们应该缩小背景特征图的差距。相比之下,细节特征图的差距应该很大。为此,图像分解的损失函数定义如下:
请添加图片描述
其中BV,DV是可见图像V的背景和细节特征图,BI,DI是红外图像I的背景和细节特征图。Φ (·) 是tanh函数,用于将间隙限制为区间 (− 1,1)。

图像重建:
对于图像重建,为了成功保留输入图像的像素强度和细节纹理信息,重建损失函数:请添加图片描述
L2-norm测量原始图像和重建图像之间的像素强度一致性,并且LSSIM计算图像在亮度,对比度和结构方面的差异。特别地,由于可见图像具有丰富的纹理,因此通过梯度稀疏性惩罚对可见图像的重建进行正则化,以确保纹理一致。
请添加图片描述

Fusion Strategy

请添加图片描述

训练后,我们将获得一个分解器 (或者说,编码器) 和一个解码器。测试阶段,我们的目标是融合红外和可见图像。工作流如图1(b) 所示。与训练不同,测试阶段插入了融合层。它分别融合背景和细节特征图。在公式中:请添加图片描述
其中BF和DF分别表示融合的背景和细节特征图。本文考虑了三种融合策略:
请添加图片描述
请添加图片描述PS:DNN理解

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值