红外与可见光图像融合论文心得(六)--CDDFuse(将图片分为高频信息与低频信息进行处理)

论文假设是,在MMIF任务中,两个模态的输入特征在低频时是相关的,代表模态共享的信息,而高频特征是不相关的,代表各自模态的独特特征。

主要工作:

提出了一种双分支Transformer-CNN框架,用于提取和融合全局和局部特征,更好地反映了独特的模态特定和模态共享特征。

•改进了CNN和Transformer模块,以更好地适应MMIF任务。具体来说,是第一个利用INN块进行无损信息传输和LT块来权衡融合质量和计算成本的人。

提出了一个相关驱动的分解损失函数来执行模态共享/特定特征分解,使跨模态基本特征相互关联,同时去相关不同模态的详细高频特征。

模型框架 

 在本节中,首先介绍了CDDFuse的工作流程和各个模块的详细结构。为简单起见,我们将低频远程特征表示为基本特征,将高频局部特征表示为详细特征。

CDDFuse包含四个模块,即用于特征提取和分解的双分支编码器,用于重建原始图像(在训练阶段I)或生成融合图像(在训练阶段II)的解码器,以及用于融合不同频率特征的基/细节融合层。详细的工作流程如图所示。注意,CDDFuse是一种通用的多模态图像融合网络,仅以IVF任务为例来说明CDDFuse的工作原理

编码器:

编码器有三个组成部分:基于Restormer块的共享特征编码器(SFE),基于Lite Transformer块的base transformer encoder(BTE)和基于可逆神经网络(INN)块的细节CNN编码器(DCE)。BTE和DCE一起构成了长短距离编码器。

首先,为了表述清晰,我们定义了一些符号。输入的配对红外和可见光图像记为I\epsilon R^{H\times W}V\epsilon R^{H\times W}。SFE、BTE和DCE分别用S(·)、B(·)和D(·)表示。

共享特性编码器。SFE旨在提取浅层特征\left \{ \Phi _{I}^{S}\Phi_{V}^{S} \right \}来自红外和可见光输入I,V,即

Base transformer encoder (BTE):
BTE是从共享特征中提取低频基特征

\left \{ \Phi _{I}^{B}\Phi_{V}^{B} \right \}分别为I和V的基本特征。为了提取远距离依赖特征,我们使用具有空间自关注的Transformer。考虑到性能和计算效率的平衡,使用LT块作为BTE的基本单位。通过扁平化前馈网络的结构,扁平化了Transformer块的瓶颈,LT块在保持性能不变的情况下缩小了嵌入,减少了参数数量,达到了我们的预期 。

Detail CNN encoder(DCE):

与BTE相反,DCE从共享特征中提取高频细节特征,其公式为

考虑到细节特征中的边缘和纹理信息对于图像融合任务非常重要,我们希望DCE中的CNN架构能够尽可能多地保留细节信息。INN模块通过输入和输出特征相互生成,使输入信息得到更好的保存。因此,它可以看作是一个无损的特征提取模块,非常适合在这里使用。因此,我们采用具有仿射耦合层的INN块。在每一可逆层中,变换为: 

式中,\bigodot为Hadamard积,\Phi _{I,k}^{S}\left [ 1,c \right ]\epsilon R^{H\times W\times C}为第k个可逆层输入特征的第1到第c个通道(k = 1;···;K), CAT(·)为通道拼接操作,I_{i}(i = 1;···;3)为任意映射函数。在每个可逆层中,可以将I_{i}I_{i}设置为任意映射,而不影响该可逆层中信息的无损传输。考虑到计算消耗和特征提取能力之间的权衡,我们在MobileNetV2中采用瓶颈残留块(瓶颈residual block, BRB)作为I_{i}。最后,将上式中的下标I替换为V,同样可以得到\Phi _{I}^{D}=\Phi _{I,k}^{S}\Phi _{V}^{D}

融合层:

基础/细节融合层的功能是分别融合基础/细节特征。考虑到基/细节特征融合的感应偏置应该类似于编码器中的基/细节特征提取,我们对基/细节融合层采用LT和INN块,其中:

 

 

解码器:

在解码器DC(·)中,将分解后的特征在通道维度上进行拼接作为输入,原始图像(训练阶段I)或融合后的图像(训练阶段II)作为解码器的输出,其表达式为:

由于这里的输入涉及跨模态和多频率特征,因此我们使解码器结构与SFE的设计保持一致,即使用Restormer块作为解码器的基本单元

损失函数 

训练阶段1:在训练阶段1中,配对的红外和可见光图像I,V输入到SFE中提取浅层特征\left \{ \Phi _{I}^{S}\Phi_{V}^{S} \right \}。然后利用基于LT块的BTE和基于Inn的DCE提取低频特征\left \{ \Phi _{I}^{B}\Phi_{V}^{B} \right \}和高频细节特征\left \{ \Phi _{I}^{D}\Phi_{V}^{D} \right \};分之后,红外低频特征和高频细节特征\left \{ \Phi _{I}^{B}\Phi_{I}^{D} \right \}(或可见光\left \{ \Phi _{V}^{B}\Phi_{V}^{D} \right \})图像被concat并输入到解码器中以重建原始红外图像\hat{I}(或可见光图像\hat{V})

训练阶段2:在训练阶段2中,配对的红外和可见光图像I,V;将V g输入到训练有素的编码器中以获得分解特征。然后分解基本特征\left \{ \Phi _{I}^{B}\Phi_{V}^{B} \right \}及细节特征\left \{ \Phi _{I}^{D}\Phi_{V}^{D} \right \}分别输入到融合层F_{B}F_{D}。最后,融合特征\left \{ \Phi ^{D},\Phi ^{B} \right \}输入到解码器中,得到融合图像F。

训练损失:

在训练阶段I,总损失总计为:

式中,L_{ir}L_{vis}为红外和可见光图像的重构损失,L_{decomp}为特征分解损失,α1和α2为调谐参数。重建损失主要是为了保证在编码和解码过程中图像所包含的信息不丢失。 

 其中

 Lvis可以用同样的方法获得。

提出的特征分解损失L_{decomp}为:

 其中CC(·;·)为相关系数算子,此处设置\varepsilon为1.01,以保证该项始终为正。

这个损失项的动机是,根据MMIF假设,分解的特征\left \{ \Phi _{I}^{B}\Phi_{V}^{B} \right \}将包含更多的模态共享信息,如背景和大尺度环境,因此它们往往是高度相关的。反之,\left \{ \Phi _{I}^{D}\Phi_{V}^{D} \right \}表示V中的纹理和细节信息,表示I中的热辐射和清晰边缘信息,这些信息是模态特定的。

因此,特征映射的相关性较低。经验上,在L_{decomp}的梯度下降法的指导下,L_{CC}^{D}逐渐减小接近0。

 在训练阶段II中,总损失为

其中,

 L_{grad}=\frac{1}{WH}\left \|\left | \Delta I_{f} \right |-max\left ( \left | \Delta I_{vis} \right |,\left | \Delta I_{ir} \right | \right ) \right \|

 \Delta表示Sobel梯度算子。α3和α4为调谐参数。

消融实验

 

实验1L_{decomp}从除法变到减法L_{decomp}=\left ( L_{CC}^{D} \right )^{2}-L_{CC}^{B},实验的结果。我证明,尽管新的亏损小幅可以产生令人满意的结果,它产生的结果相比,效果一般。

实验2,我们不要使用L_{decomp}损失,结果表明L_{decomp}是必要的功能分解。不能保证BTE和DCE都能在没有L_{decomp}的情况下学习到不同的频率特征。

实验3,我们将LT块改为INN,即基本特征和细节特征都由INN块提取。同样,在实验4中,通过LT块提取不同模态的特征。结果表明,虽然LT块的特征提取能力略强于INN块,但低于与LT和INN块协同工作的CDDFuse。

实验5中,我们将INN模块改为INN块中具有相似参数的BRBS组成的CNN模块,其效果略差于单独使用LT模块,这证明了使用CNN完成融合任务时信息丢失严重。

最后,如果我们放弃两阶段训练,直接同时训练编码器、解码器和融合层,结果是非常不理想的。实验证明,两阶段训练可以有效降低训练难度,提高训练的鲁棒性。

参考文献:https://arxiv.org/abs/2211.14461

  • 27
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值