Residual Block Network:IVIF:Symmetric AE

本文提出了一种名为SEDRFuse的深度学习框架,用于红外和可见光图像融合。该方法利用对称编码器-解码器结构,结合残差块网络,以提取和融合图像的多层特征。在训练阶段,网络学习固定特征提取器,而在融合阶段,通过注意力机制和补偿特征融合策略来融合图像。这种方法旨在保留红外图像的热信息和可见图像的亮度,同时减少计算复杂性和伪影。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SEDRFuse: A Symmetric Encoder–Decoder With Residual Block Network for Infrared and Visible Image Fusion

(SEDRFuse: 具有残余块网络的对称编码器解码器,用于红外和可见光图像融合)
在本文中,我们提出了一种具有残余块 (SEDRFuse) 网络的对称编码器-解码器,以融合红外和可见图像以用于夜视应用。在训练阶段,对SEDRFuse网络进行训练以创建固定特征提取器。在融合阶段,利用训练好的提取器分别从输入源图像中提取由残差块和前两个卷积层生成的中间特征和补偿特征。然后将从中间特征得出的两个注意图乘以中间特征进行融合。通过元素选择获得的显着补偿特征被传递到相应的反卷积层进行处理。最后,对融合的中间特征和选定的补偿特征进行解码,以重建融合图像。

介绍

作为低级融合技术,像素级图像融合直接处理从多个传感器获得的图像的像素。它旨在保留更多原始信息的源图像以实现视觉效果。但是,在实际应用中,像素级融合通常会遭受高计算强度和不可接受的伪影的困扰。
最近,特征级图像融合随着深度学习 (DL) 技术的进步而显示出其优势。特征级融合通常通过使用特定的过滤器或其他表示学习方法来提取源图像的代表性特征。最后,通过结合有用的特征来重建融合图像。
决策级融合 主要基于关联数据。由于不同图像模态之间的模态相关性,存在许多挑战。它为最终用户提供了分类描述符,而不是视觉感知。因此,它可能不适用于大多数当前的计算机视觉任务。

最先进的像素级图像融合方法可以大致分为两大类,即基于空间和基于变换的方法。
基于空间的融合方法,该方法采用简单的操作,例如逻辑,算术,矩阵变换等,并直接对源图像的像素进行操作。基于空间的融合方法的示例包括加权平均,主成分分析 (PCA) ,强度-色调-饱和度,形态运算和其他矩阵计算方法。通过这些方法获得的融合结果通常被不希望的效果所污染,例如低对比度和光谱失真。
基于变换的图像融合方法通常使用适当的变换工具来呈现变换域中具有各种系数的源图像。随后,应用基于活动水平测量的融合策略来合并这些系数。最后,通过逆变换重建这些融合系数以生成融合图像。对于基于变换的融合方法,例如金字塔,小波 和边缘保留滤波器 ,是最常用的变换工具。这些方法可以在一定程度上避免限制,例如光谱退化。但是,大多数现有的图像融合方法都处于像素级别,这具有两个关键问题,即计算强度和来自冗余信息的块伪像。通常,这些方法使用特定的变换或表示来盲目地提取源图像的信息,而无需从数据中学习。通过上述过程提取的高度相关信息可能会导致融合结果中的信息冗余。此外,复杂的融合策略增加了计算量。

综上,本文提出了一种新的红外和可见光图像融合DL方法。首先,使用可用数据集 (韩国高级科学技术研究所 (KAIST)1 和前视红外 (FLIR)2) 对具有残余块 (SEDRFuse) 网络的对称编码器解码器进行训练,包括IR和可见图像。然后,利用训练好的网络提取源图像的中间特征和补偿特征。随后,利用中间特征来使用softmax函数生成概率权重图。然后将特征与概率权重图相乘以获得两个注意图,以融合中间特征。此外,所获得的补偿特征需要首先合并并传递到相应的反卷积层。最后,通过反卷积操作将所有合并的特征反馈到解码器部分,以重建最终的融合图像。

贡献

1)提出了一种用于融合红外和可见图像的SEDRFuse网络。卷积层生成的所有特征,完全保留了每个级别的信息,都融合到最终结果中。
2)利用softmax函数实现了基于注意图的特征融合策略。使用注意图测量源图像的活动水平。采用这种融合策略,融合图像可以很好地保留红外图像的热信息,并实现竞争性亮度。
3)融合补偿功能后面的跳过连接在融合框架中应用。浅层生成的特征包含源图像的更多细节。通过应用跳过连接,可以在图像重建中重用特征提取的缺失细节,并且可以进一步增强融合结果的对比度

相关工作

大多数现有的融合方法采用多尺度分解(MSD)框架。MSD的典型操作如下: 1) 通过特定的变换工具 (例如金字塔,小波和边缘保留滤波器) 以不同的尺度 (包括双尺度) 提取各种表示的层;
2) 通过特定的融合规则将这些提取的特征层或变换系数组合在一起;
3) 将先前获得的融合层求和或逆变换以获得最终的融合图像。典型地,Li等人提出了源图像的双尺度表示,并通过使用基于引导滤波的方法获得了融合权重图,从而实现了快速有效的融合性能。Zhu等人还将源图像分解为卡通和纹理成分,分别采用sum-modified-Laplacian和稀疏表示 (SR) 融合策略进行融合。

最近 稀疏编码(SR) 方法被应用于各种信号处理领域,以处理二维图像。SR学习可以被认为是最佳的特征表示方法。例如,Yang和Li提出了一种自适应SR (ASR) 来计算视觉显着性图,从而指导融合规则合并源图像。此外,最近报道了基于SR模型和基于字典学习的方法用于图像融合。研究人员将原始图像编码在一个过完备的字典上,以获得稀疏系数,可以通过使用不同的融合策略进行融合,例如l1-norm,选择-max,加权平均等。通过在相同的过完整字典上使用这些合并系数来恢复最终融合的图像。然而,最终的融合性能受到两个关键因素的影响,例如字典设计和稀疏系数的融合规则。通常,字典可以通过固定变换基础 [离散余弦变换 (DCT),曲线集和contourlet] 和图像补丁学习来设计。与固定变换基础相比,图像补丁学习具有更好的适应性。然而,SR的计算负担集中在字典学习和l1-norm最小化问题期间更新原子。此外,源图像被分成许多补丁,这导致融合图像重建过程中的时间消耗。因此,在图像融合任务中,SR算法的复杂度相对较高。
为了充分结合每种融合方法的特殊优点,已成功探索了一些混合融合模型。例如,Naidu提出了一种混合多传感器图像融合模型,该模型结合了定向DCT (DDCT) 和PCA。基于子空间的方法 (例如PCA) 可以方便地提取源图像的内在特征并减少冗余信息。混合模型的另一个代表性示例结合了多尺度变换 (MST) 和SR。此混合模型旨在通过MST工具提取有用的信息,例如低频子带特征。但是,使用加权平均和选择最大策略进行低频积分将导致融合图像上的冗余信息 (视觉伪影),因为图像的低频分量指示能量。

Deep Learning-Based Image Fusion

当前,最有前途和最有吸引力的图像融合方向是基于DL的方法。与其他基于DL的计算机视觉任务 (例如对象检测和图像超分辨率重建) 不同,使用DL的图像融合具有很大的挑战,例如在大多数图像融合应用中缺乏用于客观评估的可用参考图像。幸运的是,与传统的图像融合方法相比,基于DL的方法在特征提取和数据表示方面具有强大的功能。原因是与传统的基于变换域的方法相比,DL模型可以生成更多的用于特征提取的滤波器组。此外,可以自适应地学习DL方法中的滤波器参数,以满足不同的图像融合任务。然而,尽管已经提出了一些新颖的成功案例 ,但尚未充分探索DL进行图像融合的潜力。Liu等人 首先提出了一种基于CNN的多焦点图像融合方法。他们使用CNNs来识别多焦点图像的清晰和不清晰的部分,这可以被视为一个二元分类问题。但是,此框架在其他图像融合应用程序中没有泛化功能。此外,它通过高斯模糊刺激负面例子 (散焦图像),这使得训练数据集不切实际。为了更好地区分聚焦和不聚焦之间的界限,,Tang等人尝试使用像素卷积神经网络 (CNN) 将源图像分为三类,包括聚焦区域、未知区域和未聚焦区域,这与Liu等人 的方法相比提高了融合性能。最近,一些作者提出使用DL来解决遥感图像中的纵锐化问题。具体而言,Masi等人首先使用基于CNN的超分辨率重建方法来处理遥感图像融合。Liu等提出了一种双流融合网络 (TFNet) 来解决泛锐化问题。但是,对于IR和可见光图像融合,将它们视为分类问题可能是不合适的,因为没有足够的地面真实图像用于监督训练网络。

与监督训练不同,无监督学习方法通常将自身作为训练网络的目标 (标签),这弥补了标记训练数据的不足。Ram Prabhakar等人首先采用深度CNN框架,以无监督的方式进行多曝光图像融合。但是,此框架过于简单,无法有效提取有用的功能。此外,增加网络层时,详细信息将丢失。因此,Li和Wu 提出了一种基于DenseFuse的融合方法,以提高特征的效率。他们修改了工作,增加了一个密集块,并用可用的MSCOCO数据集进行了训练。它在红外和可见图像融合方面取得了良好的效果。但是,仅使用密集块仍然会损失卷积过程中的细节。此外,仅将视觉图像用作融合IR和可见图像的训练数据集是不够的。Li和Zhang在其他任务中采用了预先训练的网络来提取多曝光图像融合的特征。但是,作者选择VGG19特征作为特征提取器,而没有考虑在卷积操作中使用所有特征。Ma等人提出了一种基于FusionGAN的红外和可见马融合方法。基于FusionGAN的方法使用生成对抗网络 (GAN) 融合了两种类型的信息。但是,该网络在一定程度上改变了源图像的原始信息,未能使融合图像具有真实感。
编码器-解码器体系结构具有良好的重建特性,而无需监督学习。例如,Ronneberger等人提出了一种U-Net体系结构,以产生更精确的生物医学图像分割。U-Net体系结构采用对称方式,可实现精确定位。Häggström等人利用深度编码器-解码器网络来解决PET重建的逆问题,该网络从PET正弦图数据中快速,直接地获得了几乎没有噪声信息的高质量图像。Du等人提出了一种用于特征表示的堆叠卷积去噪自动编码器。它可以学习强大的特征提取器。在本文中,我们还打算利用编码器-解码器网络的恢复能力来获得固定的特征提取器,学习复杂表示特征的层次结构。
与现有体系结构不同,所提出的训练网络中的修改在于:

首先,我们在编码器部分中添加了残差块,以使训练过程更加稳定,并重用了由第三卷积层生成的先前特征。
其次,我们使卷积层生成的所有特征连接到相应的反卷积层,这可以有效地保留卷积过程中的详细信息。
最后,我们在由IR和可见图像组成的KAIST和FLIR数据集上训练所提出的网络,以获取特征提取器,该特征提取器更适合本文中的融合任务。

SYMMETRIC ENCODER–DECODER WITH RESIDUAL BLOCK FUSION METHOD

(具有残差块融合方法的对称编码器-解码器)

Overall Framework

图1显示了所提出的融合框架,该框架由编码器,融合和解码器部分组成。编码器部分的目标是特征提取。
请添加图片描述

在这里插入图片描述

图3给出了通过可视化从第一个卷积层学习的一些滤波器。可以观察到,这些滤波器与标准高斯滤波器,与差异高斯 (DoG) 滤波器,高斯 (LoG) 滤波器的拉普拉斯算子等非常相似。可以从源图像中有效地提取各种代表性特征。此外,这些特征的融合是可行的,因为相同的卷积层共享相同的权重,这可以输出相同类型的特征。与仅使用中间特征的现有框架不同,在建议的融合框架中,卷积层生成的所有特征都用于融合
请添加图片描述
具体地,通过利用训练好的模型提取一系列特征,分别对两个源图像进行编码。我们将残差块产生的这些中间特征定义为
在这里插入图片描述
如图4(c)所示,

请添加图片描述
(注意力图和一些获得的特征的可视化。从上到下: IR图像和可见图像,以及从左到右 : ( a) 源图像,(b) 注意图,以及 ( c)从第一卷积层和残差块获得的一些特征。可以观察到,中间特征 (红色框) 传达了源图像的主要结构,而补偿特征 (绿色框) 保留了源图像的一些详细信息。)

我们选择从第一卷积层和残余块获得的一些特征进行可视化。可以看出,带有红色框的中间特征反映了源图像的主要结构。因此,这些深层特征可以为融合结果的背景信息提供服务。相反,带有绿色框的补偿功能传达了源图像的不同纹理细节。因此,由第一和第二卷积层产生的浅特征对于重建最终的融合结果同样重要。

融合部分包括中间特征和补偿特征的两种融合策略,即基于关注的特征融合和补偿特征融合。
解码器部分旨在通过对上述两个融合部分进行解码来重建最终的融合图像。类似地,最后一个 (dconv1) 和倒数第二个 (dconv2) 解卷积的特征表示为
在这里插入图片描述

训练阶段

在这项工作中,提出的SEDRFuse网络涉及编码器和解码器部分,在训练阶段没有融合部分,如图2所示。SEDRFuse网络是用可用的KAIST和FLIR数据集训练的。训练阶段是准确地重建原始数据集,同时最大程度地减少重建损失。也就是说,重建误差越小,提取的特征就越具有代表性。训练网络中的基本单元是卷积层,反卷积层,残差块,跳过连接和整流线性单元 (ReLUs) 功能。删除池化层,以防止从原始数据集中丢失有用的细节。
请添加图片描述
1) Encoder Part:
我们的编码器部分由三个卷积层和一个残余块组成。输入训练数据的大小为256 × 256 (高度和宽度)。第一卷积层不会改变输入大小,而第二和第三卷积层 (下采样) 是输入大小的一半。为了补偿卷积过程中丢失的图像细节,我们模仿了ResNet 以进一步重用先前的特征。在此网络中,我们在最后一个卷积层之后添加一个残差块。所有卷积操作都充当特征提取器,完全保留源图像的纹理和结构信息。编码器的输出具有256的中间特征,尺寸为64 × 64,保留了更多的原始结构细节。
2) Decoder Part:
为了获得与输入大小相同的输出图像,解码器部分采用对称反卷积来对应编码器部分中的卷积。反卷积通常用于通过上采样从提取的中间特征中重建原始图像。反卷积层的内核大小必须与卷积层相同,才能完全匹配。在此网络中,所有内核大小都设置为3 × 3。此外,解码器部分仅具有两种类型的单元,即反卷积层和ReLU函数。
3) Residual Block:
如图2所示,我们在编码器部分中添加了一个残差块,用于两种用途。第一个是确保深度网络中的最佳训练收敛,用于提取更具代表性的中间特征。第二个是充分利用由第三卷积层生成的先前功能。残差块数量的选择将由实验性能决定。
4) Skip Connections:
卷积操作保留了主要图像内容,而图像的纹理细节可能会丢失。此外,仅反卷积可以从提取的特征中恢复图像内容的结构细节,这些特征在编码器部分的下采样过程中会产生一定的信息损失。通常,解码器的输出是输入图像的滤波版本,这导致图像融合的性能不理想。因此,在我们的工作中,我们使用跳过连接将纹理特征信息从卷积层传输到其相应的反卷积层,通过元素方式,choice-max。这些跳过连接使提出的框架更易于训练并加快收敛速度。

融合阶段

请添加图片描述

我们描述了在融合阶段合并中间特征和补偿特征的两种策略。如图4© 所示,中间特征表示源图像的主要结构。因此,使用简单的加权平均或l1-norm策略不能区分融合过程中的显著特征,导致低对比度和低亮度融合结果。
为了保留源图像的亮度信息,我们设计了一种基于注意的特征融合策略来融合中间特征。图4(b) 显示了源图像的注意图。可以观察到,源图像中的显着对象被分配了更高的注意力得分,这适合于融合这些中间特征。然而,随着卷积层数量的增加,中间特征中丢失了许多详细信息。可以发现,由先前的浅层产生的特征 [图4© 中的绿色框] 包含源图像的更多细节。因此,为了在融合的结果中保留这些视觉细节,我们通过使用跳过连接策略来重用这些补偿功能。
1) Attention-Based Feature Fusion:

我们使用这些中间特征来获取源图像的注意力图。在我们的框架中,残差的输出是一系列中间特征。它们中的每一个都显示了一种关于源图像的特殊信息。为了准确反映源图像的显著特征,我们需要从这些特征图中创建注意力图。每个特征图都有自己的权重,由softmax运算给出,该运算计算通道方向上的概率。由于softmax函数可以计算每个中间特征对注意力图做出贡献的概率,因此它适用于计算源图像的活动水平度量
在这里插入图片描述
softmax函数可以表示如下:
请添加图片描述

将所有中间特征乘以相应的概率权重并求和,以生成源图像的注意力图。数学表达式如下:
在这里插入图片描述
根据显着机制,我们在特征级融合之前使用注意力图来优化这些中间特征。这个过程可以写如下:
在这里插入图片描述
2) Compensation Feature Fusion:
对于补偿特征,我们可以使用这些特征来重建编码器部分中卷积过程的缺失细节。由于压缩后的每个特征像素值代表原始图像的感受域,因此choose-max策略是以元素方式合并它们的更好选择,可以写为:

在这里插入图片描述

m是第一次卷积中的特征总数。(x,y) 表示特征的像素坐标。max{·} 是以元素方式选择-max函数。等式 (7) 的表达方式相同。

随后,第一和第二卷积层n的融合补偿特征([fconv1m (x,y) 和fconv2n(x,y)])可以补偿融合图像的视觉细节。它们通过元素求和传递到相应的反卷积层,可以表示如下:
在这里插入图片描述

总结:本质上类似于分为深层特征和浅层特征,深层特征通Resnet增强一些显著细节,在重建过程中把浅层特征加入。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值