红外与可见图像融合论文心得(二)--Meta-learning(不同分辨率的图像融合)

1.Meta-learning

本工作的贡献如下:提出了一种基于元学习的红外和可见光图像融合深度学习框架。
该框架可以接受不同分辨率的源图,并使用单个学习模型生成任意分辨率的融合图像。

 在该框架中,首先通过卷积网络提取每个源图像的特征,然后根据实际需要使用任意合适因子的元升级模块进行升级。然后,开发了基于双注意机制的特征融合模块,将不同源图像的特征进行融合。最后,设计了残差补偿模块,该模块可在框架中迭代使用,以增强方法的细节提取能力。

框架主要包括:FEM(特征提取模块)、FM(图像融合模块)、RCM(残差补偿模块)

FEM(特征提取模块) :

 主体结构

详细结构

1.FEB_{S}:感受野模块受Receptive Field Block (RFB)的启发。为了避免池化和跨行卷积造成的信息丢失,FEB中不涉及下采样层(如池化、跨行卷积),从而使输出feature map的空间大小与输入保持一致。

2. Meta-Upscale(网络特色):为了实现该方法可以接受不同分辨率的源图像,并仅使用单一模型生成任意分辨率的融合图像,采用元学习超分辨率的元模块(MUM)作为上采样层。MUM该方法包括位置对应、权重预测和特征映射三个步骤。

(a)显示了低分辨率图像与对应的高分辨率图像之间像素的位置对应关系,比例因子为r

也就是说将高分辨率图像÷比例因子,降低分辨率;低分辨率图像×比例因子,升高分辨率。

两种方案: 将高分辨率降为低分辨率,或者低分辨率升为高分辨率。

FM(融合模块):

1.双注意力机制:论文中才用双重注意机制(DAM),它由位置注意机制(PAM)和通道注意机制(CAM)两部分组成。

GAP为 Global Average Pooling 

位置注意机制:对于提取出来的特征图,将更多的注意力放在显著目标或轮廓对应的系数上,有利于显著源信息的保存。为此,我们开发了一种类似于PAM的U-Net架构来预测不同空间位置特征的权重。PAM体系结构主要包括编码和解码两个阶段。

在编码阶段,给定升级后的特征图F_{l}\epsilon R^{C\times H\times W}\left ( l\epsilon\left \{ IR,VIS \right \} \right ),其中“I R”和“VIS”分别表示红外和可见光图像。C、H、W分别表示通道数、特征图的高度和宽度。采用Global Average Pooling (GAP)对它们进行聚合并生成\tilde{F_{l}}\epsilon R^{ H\times W}。在第一个下采样水平,我们使用最大池化操作来保留一个邻域中最重要的信息,同时\tilde{F_{l}}将的分辨率降低到1\times \frac{H}{2}\times \frac{W}{2}。然后使用卷积层进一步提取特征。上述过程可表述为:

其中Conv、MP和GAP分别表示卷积算子、最大池化算子和GAP为全局平均池化算子。

\hat{F_{l}}的分辨率为8\times \frac{H}{2}\times \frac{W}{2}。在第二个下采样层,我们使用平均池化操作对特征图进行下采样,然后将产生的结果馈送到另一个卷积层,以获得大小为16\times \frac{H}{4}\times \frac{W}{4}的特征图F_{l}^{e}

在解码阶段,使用亚像素卷积层对特征映射F_{l}^{e}上采样到4\times \frac{H}{2}\times \frac{W}{2}将得到的结果与f_1串联起来,然后馈送到1×1卷积层。最后,采用亚像素卷积层生成源图像l的位置权重图F_{l}^{d}\epsilon R^{1\times H\times W},上述过程可表示为

SPC为亚像素卷积层,对于F_{l,i}^{d}我们计算加权特征图F_{l,i}^{p},通过下式

 

通道注意力机制 :

融合策略 :利用一个1×1的卷积,即

 然后,利用最大选择规则对得到的特征F_{con,IR}F_{con,VIS}进行融合

 

最后,将上面两式进行concat后,进行卷积

残差补偿模块:

 

在我们的融合和超分辨率框架中,我们需要通过MUM将每个特征映射的大小增加到目标大小。然而,这个过程可能会导致源图像中的细节丢失。受反向投影网络的启发[40],我们开发了一种简单而有效的剩余补偿机制来弥补丢失的细节。为此,我们通过模仿MUM创建了一个元规模模块(MDM)。与MUM一样,MDM也以比例因子作为输入,动态预测下尺度滤波器的权重,从而可以任意减小特征映射的大小,而无需重复训练。将模态分析和模态分析相结合,设计残差补偿模块(RCM)。设F_{l}^{dw} (l∈{I R, VIS})为特征提取网络提取的原始低分辨率特征图,F_{l}为其元升级版本。F_{l}^{dw}F_{l}的元降尺度结果之间的残差计算为

利用最MUM得到了高分辨率的残差R_{l}^{dw}

残差映射R_{IR}^{up}(R_{VIS}^{up})由细粒度特征和在MUM和MDM中产生的扭曲信息组成。在SR算法中,平滑区域和部分突出结构可以很容易地恢复。因此,前几层的残差主要是未恢复的高频分量。在这种情况下,每个位置的残差系数绝对值较大,一般说明在上采样过程中图像细节信息丢失或失真较多。因此,为了更好地对融合后的图像补偿这些信息,我们将R_{IR}^{up}(R_{VIS}^{up})按照最大选择规则进行合并:

最终补偿后的特征图为

损失函数: 

损失函数主要包括:像素损失和对比损失

像素损失:像素损失的目的是限制真实值与模型预测值之间的强度差。

其中I_{IR}^{sr},I_{VIS}^{sr},I_{f}^{sr}表示预测的高分辨率红外、可见光和融合图像。

对比度损失:引入了对比度损失来进一步增强融合图像的显著特征。

上式中第一项用于防止融合后的图像与两源图像的平均值之间存在较大的偏差,第二项用于提高融合后图像的对比度。

第一项为

\bar{I^{up}}I_{IR}^{up}I_{VIS}^{up}的平均值。

第二项为表示像素亮度的变化。理论上,这种变化对对比度的影响应该与两个像素之间的距离成反比。此外,融合图像的对比度应与源图像的对比度呈正相关。

文章原地址:Different Input Resolutions and Arbitrary Output Resolution: A Meta Learning-Based Deep Framework for Infrared and Visible Image Fusion | IEEE Journals & Magazine | IEEE Xplore

学习心得:

①利用 比例因子对 不同分辨率的图像进行处理

②训练方案:采用两阶段训练策略对模型进行训练。首先只使用L_{pixel}对模型进行训练,获得用于超分辨率和融合的初始特征。然后,我们冻结了超分辨率分支的参数,而只微调了融合分支的参数,总损失如下

③利用残差网络对结果进行补偿 

其他红外文章:红外与可见图像融合论文心得(一)--Deepfuse

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值