TCCFusion: An infrared and visible image fusion method based on transformer and cross correlation一种基于transformer和互相关的红外与可见光图像融合方法
研究背景
问题背景:
- 现有的方法都是通过卷积实现特征提取。 卷积可以提取良好的局部特征,但是卷积核的感受野带大小也限制了它依赖全局信息的能力。
- 现有的方法在设计目标函数时忽略了输入图像与融合结果之间的互相关性,因此无法很好地训练深度模型。
网络框架
网络由四个模块组成,即编码器、局部特征提取分支(LFEB)、全局特征提取分支(GFEB)和解码器。
整体流程:首先将两个源图像进行通道维度上进行拼接作为输入送到编码器,经过编码器提取浅层特征后,将浅层特征同时送入局部特征分支和全局特征分支,同时提取局部特征和全局特征,将提取到的局部特征和全局特征按逐元素相加的方式得到融合特征,最后将融合特征送入到解码器进行图像重建。
- 编码器结构:两个连续的卷积层组成。 每一层都采用一个3×3卷积,然后是一个批归一化(BN)和一个整流线性单元(RELU)。 编码器的输出分别送入两个并行支路,即LFEB和GFEB,以同时提取局部和全局互补特征。
- 局部特征提取(LFEB):采用三个卷积层来捕获局部特征。 考虑到密集连接的网络可以加强特征传播,提高深度模型的训练效率,避免梯度消失的问题,将LFEB中的三层结构布置成密集的形状,以提高融合性能。
- 全局特征提取(GFEB):用三个transformer块来保持全局特征。 具体来说,为了充分利用更重要的全局互补信息,有秩序地利用三个TRB构建深度融合模型。 在每个TRB中,首先采用层归一化(LN),然后采用多头自关注(MSA)和元素求和操作。就是正常的vision transformer操作(划分patch然后patch之间注意力操作)。
- 解码器模块:经过LFEB和GFEB提取出来的特征采用逐元素相加的方法(也就是两个特征对应位置的像素进行相加)得到融合特征,然后将融合特征送入解码器中。解码器使用了两个卷积层。 第一层由一个3×3卷积、一个BN和一个RELU组成。 第二层由1×1卷积和TANH激活函数组成。最终生成融合图像。
红外和可见光图像融合缺乏地面真实参照,是以一种无监督的方式训练的。 因此,损失函数在影响融合性能方面起着至关重要的作用。
损失函数
损失函数:由Lcc ,Lp,Ls三部分组成。
Lcc(互相关损失函数):约束融合图像与输入图像之间有较强的互相关。NCC表示归一化互相关操作。
两个图像之间的互相关:通过两个图像之间的像素值体现(下面的公式我能看懂,但解释不出来),NCC越大表示两个图像互相关越强,Lcc损失越小。
Lp(像素强度损失): 约束融合图像保留源图像中的显著性目标。
Ls(结构相似性损失): 融合结果需要具有丰富的场景细节。 为此,设计了结构损失,以确保融合结果具有与输入图像相似的结构信息。
思考(SSIM与细节损失函数那个表示的细节信息更多,当然也可以一起使用),所以我认为,可以再添加一个Ltexture(细节损失函数,一般与像素强度损失函数一块出现),通过梯度信息更好的保留源图像的细节信息。
Ltexture(细节损失函数):细节信息一般通过梯度信息表示。
剩下的是实验设置和结果展示,参考原文吧。
结论
贡献点:
-
我们提出了一种新的局部-全局并行网络,从局部保持和全局开发的角度来开发重要特征。 具体来说,设计了一个密集形状的局部特征提取分支(LFEB),以保持局部有用的特征,并充分重用卷积运算过程中可能丢失的信息。 设计了一个基于转换器的全局特征提取分支(GFEB),以保留全局特征并更好地构建长期关系。 值得一提的是,LFEB和GFEB以平行的方式布置,以便以更有效的方式捕获特征
-
我们提出了一个互相关损失来训练所提出的模型,以更好地保持互补信息。 具体而言,红外图像提供了与目标相对应的热辐射信息,而可见光图像则提供了丰富的场景纹理细节。 为了充分捕捉这两种模式的互补信息,我们计算了输入图像和融合图像之间的归一化互相关。
参考原文:TCCFusion: An infrared and visible image fusion method based on transformer and cross correlation