【RNN：并行场景和纹理学习】

最新推荐文章于 2024-05-26 21:38:48 发布

小郭同学要努力

最新推荐文章于 2024-05-26 21:38:48 发布

阅读量740

点赞数

分类专栏：图像融合文章标签： rnn 学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43690932/article/details/128172950

版权

图像融合专栏收录该内容

134 篇文章 90 订阅

订阅专栏

Infrared and visible image fusion via parallel scene and texture learning

（基于并行场景和纹理学习的红外与可见光图像融合）

本文提出了一种基于并行场景和纹理学习的红外和可见光图像融合方法。我们的主要目标是部署深度神经网络的两个分支，即内容分支和细节分支，从源图像中同步提取不同的特征，然后重构融合图像。内容分支主要关注coarse-grained信息，用于估计源图像的全局内容。细节分支主要关注图像的fine-grained信息，设计了一种全方位空间变异递归神经网络，更准确地对源图像的内部结构进行建模，并以显式的方式提取纹理相关特征。

由于硬件设备的理论和技术限制，从单一模态传感器或在单一拍摄设置下获得的信息不能有效和全面地描述成像场景。因此，出现了图像融合技术，其目的是联合收割机由多模式传感器或在不同拍摄设置下捕获的互补信息。在图像融合技术中，红外和可见光图像融合可能是应用最广泛的。可见光图像通过捕捉反射光，包含丰富的纹理细节信息，符合人眼观察规律，但容易受到各种环境的影响而失去目标。相反，红外图像主要检测热辐射信息。它们的特点是高对比度，可以有效地区分背景和突出目标，同时它们受到甚至恶劣环境的影响非常小。然而，大多数红外图像包含的纹理细节很少，而可见光图像丢失了显著目标的像素强度信息。因此，红外图像和可见光图像的互补性为我们提供了将这两种特征结合起来的可能性，以达到目标突出和纹理细节丰富的预期效果。此外，红外与可见光图像融合由于其融合结果的优异性能，在目标检测、行人再识别、跟踪、语义分割等高级视觉领域得到了广泛的应用

在过去的几十年中，已经提出了大量的融合算法，包括传统的融合方法和基于深度学习的方法。传统的图像融合方法主要是利用相关的数学变换将源图像变换到变换域，然后在变换域进行活性水平测量或人工设计融合策略来实现图像融合。传统方法的大多数融合过程可以总结如下。首先利用特定的变换对源图像进行特征提取，然后根据特征的特点设计特定的融合策略，最后通过相应的逆变换重构融合图像。Xing等人利用泰勒展开理论对源图像进行分解，设计了一种基于卷积稀疏表示和梯度惩罚的融合规则虽然传统的融合方法进行了比较令人满意的性能,在多数情况下,存在一些缺点和瓶颈。一方面,手工设计和测量活动水平越来越复杂的追求优越的融合性能不能满足实时计算机视觉任务的要求。另一方面，传统的特征提取方法通常利用均匀变换对源图像进行特征提取，没有考虑红外和可见光图像的固有特性。

近年来，随着深度学习的迅速发展，神经网络强有力的非线性拟合能力和突出的特征提取能力推动了图像融合技术的巨大进步。当前基于深度学习的融合方法可以归纳为三类，即基于自动编码器（AE）的方法、基于端到端卷积神经网络（CNN）的方法和基于生成对抗网络（GAN）的方法。对于基于AE的融合方法，首先在大规模图像数据集上训练自动编码器，以获得令人信服的特征提取和图像重建能力。随后，利用经过良好训练的自动编码器从源图像中提取互补信息，然后通过一些特定的融合规则（例如逐元素求和和级联）进行合并。最后，通过自动编码器从融合后的特征重构融合图像。然而，由于手工制定的融合规则，例如元素加权求和和元素最大值，整个基于AE的融合框架不是完全可学习的。因此，其他研究者试图探索端到端融合框架来避免这一缺点。首先构建网络框架，设计特定的损失函数来指导网络的训练，而不需要人工设计融合规则。基于神经网络的图像特征提取和图像重建框架可以实现端到端的隐式特征提取和图像重建。考虑到红外与可见光图像融合缺乏真实感，一些研究进一步将图像融合看作融合图像与源图像之间的对抗博弈。具体地说，基于GAN的融合方法通过限制灰度和纹理细节的概率分布，使融合图像与源图像保持一致。

尽管基于深度学习方法产生令人满意的融合性能,仍有一些障碍,应该被征服。一般来说,现有的基于深度学习方法依赖于神经网络的令人信服的能力从源图像中提取深度特性。然而,他们通常在一个隐式的方式提取深度特性。大多数基于深度学习融合方法不能保证提取的特征可以准确模型源图像的内部结构。大多数基于深度学习的融合方法不能保证提取的特征能够准确地描述源图像的内部结构。因此，在特征提取过程中，会丢失一些细节信息，如边缘、纹理等。为了赋予提取的特征图更明确的物理意义，Zhang等人将统一图像融合建模为梯度和强度的比例保持（PMGI），其设计强度路径和梯度路径以分别保持强度和梯度信息。然而，由于约束条件不充分，梯度路径无法提取出具有丰富纹理信息的合适特征。我们将从图1中的梯度路径提取的特征图可视化，以直观地演示这一缺点。注意，通过PMGI的梯度路径提取的特征与普通特征没有显著差异，并且PMGI的融合结果丢失了一些细节信息。请添加图片描述
针对上述问题，提出了一种基于并行场景和纹理学习的图像融合框架，实现了粗粒度和细粒度信息的并行保存。首先，将该框架划分为两个并行的深度神经网络分支，即内容分支和细节分支，并行编码全局信息和建模源图像的内部结构。其次，针对大多数基于深度学习的融合方法中隐式特征提取的问题，在细节分支中提出了全向空间变体递归神经网络（RNN），用于从源图像中显式提取纹理相关特征。在内容分支、细节分支之间以及内容分支和细节分支之间引入跳跃连接，弥补了特征提取过程中的信息丢失。从图1中可以观察到由细节分支和PMGI的梯度路径提取的特征之间的差异。细节分支提取的特征包含了许多显著的纹理细节，有利于提高融合图像的纹理细节和融合结果的视觉效果。

贡献

1）提出了一种基于并行场景和纹理学习的红外与可见光图像融合框架，该框架能够同时关注粗粒度和细粒度信息。

2）该方法将全方向空间变体的RNN引入到细节分支中，以明确的方式对源图像的内部结构进行建模，从而保证融合结果具有锐化的边缘和丰富的纹理细节。据我们所知，这是第一次将递归神经网络引入红外与可见光图像融合领域。

3）大量的实验表明，与现有的算法相比，该算法具有更好的性能。与其他同类算法相比，该算法能够生成纹理细节丰富、边缘锐化、目标突出的融合结果。此外，该方法还可以获得相对较少的运行时间消耗。

方法

Problem formulation

我们提出的方法的融合过程的总体框架如图2所示。请添加图片描述
如图2所示，利用内容分支提取红外和可见光图像的场景相关特征，表示为：在这里插入图片描述
内容分支负责对全局内容进行编码并保留源图像的场景信息。同时，我们设计了一个细节分支来加强结构信息的表达。具体地说，使用具有空间变体RNN的细节分支来更精确地建模源图像的内部结构，并以显式方式提取纹理相关特征。此外，输入图像与其对应的梯度图的级联被作为细节分支的输入，以保留来自源图像的更多信息，其描述如下：
请添加图片描述
值得注意的是，我们利用修正的空间变体RNN模型来实现上述函数，该函数不同于Eq.(1)。修改的空间变化RNN模型的定义如下：

如Eq.(4)引入两个独立的加权映射W和H。在这些情况下，当前图像像素信息x [ n ]和先前隐藏状态q [ n − 1]可以被更灵活地调整。当h [ n ]接近零时，从q [ n − 1]到q [ n ]的传播被截断，并且仅考虑当前像素信息x [ n ]。此外，当h [ n ]得到较大的值时，它保持从q [ n − 1]到q [ n ]的传播，因此倾向于选择纹理特征。

本文引入了一种类似于内容分支的编码器-解码器架构，以基于输入生成独立的权重映射w和h。由于该网络和内容分支之间的类似属性和特征表示，图3中示出了到内容分支的一些跳过连接。请添加图片描述

此外，通过由多个Resblock组成的网络，从输入中提取深度特征x。一维空间变体RNN将生成的权重图w和h与深度特征x集成，以递归地产生隐藏图，如图3右上方所示。此外，为了更好地模拟源图像的内部结构，我们考虑全向空间变体RNN从四个不同的方向扫描输入。从左到右和从右到左，每行输入被视为一个序列。例如，如果我们把输入的一个像素看作x [ n ]，那么从左到右，它左边的像素是x [ n − 1]，而从右到左，它右边的像素是x [ n − 1]。同样，对于另外两个方向：从上到下和从下到上，每一列输入被视为一个序列。从图3中，我们可以看到全向空间变体RNN是如何工作的。因此，生成四个不同的隐藏图以学习不同的纹理相关特征。然后，我们通过选择最优方向来集成这些特征图，其中每个位置处的响应最大。这里，最大池用于选择所需纹理信息传播的方向。最后，提取纹理相关特征。

在特征提取之后，我们分别采用元素最大化和加法策略合并场景相关的特征图和纹理相关的特征图。在内容分支,m∈{1,2,…M}和M = 16个代表scene-related特性的数字地图。{ $Φ^1$ _Sir。 $Φ^M$ _Sir}和{ $Φ^1$ _Svi,。 $Φ^M$ _Svi}分别表示红外和可见scene-related特性。最大的策略制定如下:

请添加图片描述
在细节分支中，k ∈ { 1，2，.。。，K}，K = 16表示纹理相关特征图的数量。{ $Φ^1$ _Tir，…， $Φ^K$ _Tir }和{ $Φ^1$ _Tvi，…， $Φ^K$ _Tvi }分别表示与红外和可见光纹理相关的特征图。细节分支用于捕获高频响应并明确保留纹理细节。因此，为了尽可能多地保留高频信息，我们采用了一种添加策略来集成纹理相关特征。添加策略定义如下：请添加图片描述
其中Φ_T是细节分支的融合特征，称为纹理相关特征。场景相关特征Φ_S和纹理相关特征Φ_T在通道维度中如下连接：

最后，使用图像重建单元F_r（·）来充分整合场景相关信息和纹理相关信息，并从合并的特征图Φ_f生成融合图像I_f：请添加图片描述

Loss functions

我们定义了两种损失，强度损失和细节损失。强度损失主要限制重建图像的像素强度分布与源图像一致。而细节损失则促使重建图像包含更多的纹理细节。因此，我们最小化总损耗L以训练我们的自动编码器网络，定义如下：
请添加图片描述

其中λ1和λ2是平衡强度损失L_int和细节损失L_det的权重。一方面，重建图像被约束为具有与输入图像相似的像素强度分布。强度损失L_int计算如下：在这里插入图片描述
其中O和I分别是输出和输入图像。H和W表示输入和输出图像的高度和宽度，以及
||·||₁代表L₁ 范数。该损失计算输出O和输入I之间的绝对距离。
另一方面，利用细节损失来增强约束，从而使重建图像具有丰富的纹理和锐化的边缘。类似地，细节损失L_det定义如下：请添加图片描述

Network structure

如图3所示，我们的网络结构包含三个部分，即内容分支、细节分支和图像重建单元。请添加图片描述

Content branch

基于CNN构建内容分支。如图3所示，考虑到在DenseFuse和STDFusionNet中采用的编码器-解码器架构的功效，内容分支通过一些特定设计构建在残差块的顶部。

在内容分支中，编码器和解码器都包含三个块。每个块包含两个卷积层，每个卷积层的核大小为3 × 3，编码器中的第一层除外。为了扩大感知域，编码器中第一层的核大小为5 × 5。所有卷积层都具有泄漏整流线性单元（LeakyReLU）激活层。为了弥补在下采样和上采样操作中的信息丢失，我们在编码器和解码器之间引入了跳跃连接。更重要的是，细节分支中的去卷积模块的特征映射与内容分支中的那些特征映射级联在一起，以在上采样阶段期间保留更多细节。

Detail branch

细节分支也是在CNN的基础上构造的。我们采用与内容分支相同的编码器-解码器体系结构，具有附加的跳跃连接以生成权重映射w和h。该体系结构包含与内容分支类似的属性，并且它们以相应的尺度表示它们的特征映射，这使得到内容分支的跳跃连接更加合理，如图3所示。
此外，为了缓解梯度消失或爆炸的问题，引入了Resblock。Resblock的详细结构如图3右下角所示。
请添加图片描述

每个Resblock包含三个模块，称为M1、M2和M3。每个模块都有一个卷积层，除了M₂外，其核大小为1 × 1，其核大小为3 × 3。LeakyReLU在M₁和M₂中作为激活函数应用。此外，设计了一个跳连接映射层，克服了Resblock输入输出维数不一致的问题，其核大小也为1 × 1。最后，将M₃的输出和跳跃连接映射层相加，然后执行LeakyReLU激活函数，以获得Resblock的输出。该算法引入了核大小为3 × 3的卷积层和3个Resblocks来获取输入的深度特征。在细节分支中，我们利用具有学习的权重图w和h的深度特征x，以基于Eq.(4)获得纹理相关的特征图。

Image reconstruction unit

在从输入中提取出场景相关特征和纹理相关特征后，采用元素最大化和加法策略对这些特征进行整合，然后将两类特征进行级联。最后，我们部署了两个额外的卷积层来充分科普场景相关和纹理相关的信息，并获得融合图像。每个卷积层的核大小为3 × 3，步长为1。第一层使用LeakyReLU作为激活函数，而第二层的激活函数是Tanh。