论文假设是,在MMIF任务中,两个模态的输入特征在低频时是相关的,代表模态共享的信息,而高频特征是不相关的,代表各自模态的独特特征。
主要工作:
提出了一种双分支Transformer-CNN框架,用于提取和融合全局和局部特征,更好地反映了独特的模态特定和模态共享特征。
•改进了CNN和Transformer模块,以更好地适应MMIF任务。具体来说,是第一个利用INN块进行无损信息传输和LT块来权衡融合质量和计算成本的人。
提出了一个相关驱动的分解损失函数来执行模态共享/特定特征分解,使跨模态基本特征相互关联,同时去相关不同模态的详细高频特征。
模型框架
在本节中,首先介绍了CDDFuse的工作流程和各个模块的详细结构。为简单起见,我们将低频远程特征表示为基本特征,将高频局部特征表示为详细特征。
CDDFuse包含四个模块,即用于特征提取和分解的双分支编码器,用于重建原始图像(在训练阶段I)或生成融合图像(在训练阶段II)的解码器,以及用于融合不同频率特征的基/细节融合层。详细的工作流程如图所示。注意,CDDFuse是一种通用的多模态图像融合网络,仅以IVF任务为例来说明CDDFuse的工作原理
编码器:
编码器有三个组成部分:基于Restormer块的共享特征编码器(SFE),基于Lite Transformer块的base transformer encoder(BTE)和基于可逆神经网络(INN)块的细节CNN编码器(DCE)。BTE和DCE一起构成了长短距离编码器。
首先,为了表述清晰,我们定义了一些符号。输入的配对红外和可见光图像记为和。SFE、BTE和DCE分别用S(·)、B(·)和D(·)表示。
共享特性编码器。SFE旨在提取浅层特征来自红外和可见光输入,即
Base transformer encoder (BTE):
BTE是从共享特征中提取低频基特征
分别为I和V的基本特征。为了提取远距离依赖特征,我们使用具有空间自关注的Transformer。考虑到性能和计算效率的平衡,使用LT块作为BTE的基本单位。通过扁平化前馈网络的结构,扁平化了Transformer块的瓶颈,LT块在保持性能不变的情况下缩小了嵌入,减少了参数数量,达到了我们的预期 。
Detail CNN encoder(DCE):
与BTE相反,DCE从共享特征中提取高频细节特征,其公式为
考虑到细节特征中的边缘和纹理信息对于图像融合任务非常重要,我们希望DCE中的CNN架构能够尽可能多地保留细节信息。INN模块通过输入和输出特征相互生成,使输入信息得到更好的保存。因此,它可以看作是一个无损的特征提取模块,非常适合在这里使用。因此,我们采用具有仿射耦合层的INN块。在每一可逆层中,变换为:
式中,为Hadamard积,为第k个可逆层输入特征的第1到第c个通道(k = 1;···;K), CAT(·)为通道拼接操作,(i = 1;···;3)为任意映射函数。在每个可逆层中,可以将设置为任意映射,而不影响该可逆层中信息的无损传输。考虑到计算消耗和特征提取能力之间的权衡,我们在MobileNetV2中采用瓶颈残留块(瓶颈residual block, BRB)作为。最后,将上式中的下标I替换为V,同样可以得到和。
融合层:
基础/细节融合层的功能是分别融合基础/细节特征。考虑到基/细节特征融合的感应偏置应该类似于编码器中的基/细节特征提取,我们对基/细节融合层采用LT和INN块,其中:
解码器:
在解码器DC(·)中,将分解后的特征在通道维度上进行拼接作为输入,原始图像(训练阶段I)或融合后的图像(训练阶段II)作为解码器的输出,其表达式为:
由于这里的输入涉及跨模态和多频率特征,因此我们使解码器结构与SFE的设计保持一致,即使用Restormer块作为解码器的基本单元。
损失函数
训练阶段1:在训练阶段1中,配对的红外和可见光图像输入到SFE中提取浅层特征。然后利用基于LT块的BTE和基于Inn的DCE提取低频特征和高频细节特征;分之后,红外低频特征和高频细节特征(或可见光)图像被concat并输入到解码器中以重建原始红外图像(或可见光图像)
训练阶段2:在训练阶段2中,配对的红外和可见光图像;将V g输入到训练有素的编码器中以获得分解特征。然后分解基本特征及细节特征分别输入到融合层和。最后,融合特征输入到解码器中,得到融合图像F。
训练损失:
在训练阶段I,总损失总计为:
式中,和为红外和可见光图像的重构损失,为特征分解损失,α1和α2为调谐参数。重建损失主要是为了保证在编码和解码过程中图像所包含的信息不丢失。
其中
Lvis可以用同样的方法获得。
提出的特征分解损失为:
其中CC(·;·)为相关系数算子,此处设置为1.01,以保证该项始终为正。
这个损失项的动机是,根据MMIF假设,分解的特征将包含更多的模态共享信息,如背景和大尺度环境,因此它们往往是高度相关的。反之,表示V中的纹理和细节信息,表示I中的热辐射和清晰边缘信息,这些信息是模态特定的。
因此,特征映射的相关性较低。经验上,在的梯度下降法的指导下,逐渐减小接近0。
在训练阶段II中,总损失为
其中,
表示Sobel梯度算子。α3和α4为调谐参数。
消融实验
在实验1,从除法变到减法,实验的结果。我证明,尽管新的亏损小幅可以产生令人满意的结果,它产生的结果相比,效果一般。
在实验2,我们不要使用损失,结果表明是必要的功能分解。不能保证BTE和DCE都能在没有的情况下学习到不同的频率特征。
在实验3,我们将LT块改为INN,即基本特征和细节特征都由INN块提取。同样,在实验4中,通过LT块提取不同模态的特征。结果表明,虽然LT块的特征提取能力略强于INN块,但低于与LT和INN块协同工作的CDDFuse。
在实验5中,我们将INN模块改为INN块中具有相似参数的BRBS组成的CNN模块,其效果略差于单独使用LT模块,这证明了使用CNN完成融合任务时信息丢失严重。
最后,如果我们放弃两阶段训练,直接同时训练编码器、解码器和融合层,结果是非常不理想的。实验证明,两阶段训练可以有效降低训练难度,提高训练的鲁棒性。