TCCFusion: An infrared and visible image fusion method based on transformer and cross correlation 论文

最新推荐文章于 2024-05-29 13:37:33 发布

近视的眼

最新推荐文章于 2024-05-29 13:37:33 发布

阅读量519

点赞数 2

分类专栏：论文阅读文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/wsgaolitou/article/details/129847130

版权

6 篇文章 2 订阅

订阅专栏

问题背景：

网络由四个模块组成，即编码器、局部特征提取分支(LFEB)、全局特征提取分支(GFEB)和解码器。

整体流程：首先将两个源图像进行通道维度上进行拼接作为输入送到编码器，经过编码器提取浅层特征后，将浅层特征同时送入局部特征分支和全局特征分支，同时提取局部特征和全局特征，将提取到的局部特征和全局特征按逐元素相加的方式得到融合特征，最后将融合特征送入到解码器进行图像重建。

在这里插入图片描述

编码器结构：两个连续的卷积层组成。每一层都采用一个3×3卷积，然后是一个批归一化(BN)和一个整流线性单元(RELU)。编码器的输出分别送入两个并行支路，即LFEB和GFEB，以同时提取局部和全局互补特征。

在这里插入图片描述

局部特征提取（LFEB）：采用三个卷积层来捕获局部特征。考虑到密集连接的网络可以加强特征传播，提高深度模型的训练效率，避免梯度消失的问题，将LFEB中的三层结构布置成密集的形状，以提高融合性能。

在这里插入图片描述

全局特征提取（GFEB）：用三个transformer块来保持全局特征。具体来说，为了充分利用更重要的全局互补信息，有秩序地利用三个TRB构建深度融合模型。在每个TRB中，首先采用层归一化(LN)，然后采用多头自关注(MSA)和元素求和操作。就是正常的vision transformer操作（划分patch然后patch之间注意力操作）。

在这里插入图片描述

解码器模块：经过LFEB和GFEB提取出来的特征采用逐元素相加的方法（也就是两个特征对应位置的像素进行相加）得到融合特征，然后将融合特征送入解码器中。解码器使用了两个卷积层。第一层由一个3×3卷积、一个BN和一个RELU组成。第二层由1×1卷积和TANH激活函数组成。最终生成融合图像。

在这里插入图片描述

红外和可见光图像融合缺乏地面真实参照，是以一种无监督的方式训练的。因此，损失函数在影响融合性能方面起着至关重要的作用。

损失函数：由Lcc ,Lp,Ls三部分组成。

Lcc(互相关损失函数)：约束融合图像与输入图像之间有较强的互相关。NCC表示归一化互相关操作。

两个图像之间的互相关：通过两个图像之间的像素值体现（下面的公式我能看懂，但解释不出来），NCC越大表示两个图像互相关越强，Lcc损失越小。

在这里插入图片描述

Lp（像素强度损失）: 约束融合图像保留源图像中的显著性目标。

在这里插入图片描述

Ls（结构相似性损失）: 融合结果需要具有丰富的场景细节。为此，设计了结构损失，以确保融合结果具有与输入图像相似的结构信息。

思考（SSIM与细节损失函数那个表示的细节信息更多，当然也可以一起使用），所以我认为，可以再添加一个Ltexture（细节损失函数，一般与像素强度损失函数一块出现），通过梯度信息更好的保留源图像的细节信息。

在这里插入图片描述

Ltexture（细节损失函数）：细节信息一般通过梯度信息表示。

在这里插入图片描述

剩下的是实验设置和结果展示，参考原文吧。

贡献点：

我们提出了一种新的局部-全局并行网络，从局部保持和全局开发的角度来开发重要特征。具体来说，设计了一个密集形状的局部特征提取分支(LFEB)，以保持局部有用的特征，并充分重用卷积运算过程中可能丢失的信息。设计了一个基于转换器的全局特征提取分支(GFEB)，以保留全局特征并更好地构建长期关系。值得一提的是，LFEB和GFEB以平行的方式布置，以便以更有效的方式捕获特征
我们提出了一个互相关损失来训练所提出的模型，以更好地保持互补信息。具体而言，红外图像提供了与目标相对应的热辐射信息，而可见光图像则提供了丰富的场景纹理细节。为了充分捕捉这两种模式的互补信息，我们计算了输入图像和融合图像之间的归一化互相关。

关注