红外与可见图像融合论文心得（二）--Meta-learning（不同分辨率的图像融合）

最新推荐文章于 2024-04-13 13:45:36 发布

停在你这里.

最新推荐文章于 2024-04-13 13:45:36 发布

阅读量1.1k

点赞数 16

文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_69464301/article/details/135332583

版权

1.Meta-learning

本工作的贡献如下:提出了一种基于元学习的红外和可见光图像融合深度学习框架。
该框架可以接受不同分辨率的源图，并使用单个学习模型生成任意分辨率的融合图像。

在该框架中，首先通过卷积网络提取每个源图像的特征，然后根据实际需要使用任意合适因子的元升级模块进行升级。然后，开发了基于双注意机制的特征融合模块，将不同源图像的特征进行融合。最后，设计了残差补偿模块，该模块可在框架中迭代使用，以增强方法的细节提取能力。

框架主要包括：FEM(特征提取模块)、FM(图像融合模块)、RCM(残差补偿模块)

FEM(特征提取模块) ：

主体结构

详细结构

1. $FEB_{S}$ ：感受野模块受Receptive Field Block (RFB)的启发。为了避免池化和跨行卷积造成的信息丢失，FEB中不涉及下采样层(如池化、跨行卷积)，从而使输出feature map的空间大小与输入保持一致。

2. Meta-Upscale(网络特色):为了实现该方法可以接受不同分辨率的源图像，并仅使用单一模型生成任意分辨率的融合图像，采用元学习超分辨率的元模块(MUM)作为上采样层。MUM该方法包括位置对应、权重预测和特征映射三个步骤。

(a)显示了低分辨率图像与对应的高分辨率图像之间像素的位置对应关系，比例因子为r

也就是说将高分辨率图像÷比例因子，降低分辨率；低分辨率图像×比例因子，升高分辨率。

两种方案：将高分辨率降为低分辨率，或者低分辨率升为高分辨率。

FM（融合模块）：

1.双注意力机制：论文中才用双重注意机制(DAM)，它由位置注意机制(PAM)和通道注意机制(CAM)两部分组成。

GAP为 Global Average Pooling

位置注意机制:对于提取出来的特征图，将更多的注意力放在显著目标或轮廓对应的系数上，有利于显著源信息的保存。为此，我们开发了一种类似于PAM的U-Net架构来预测不同空间位置特征的权重。PAM体系结构主要包括编码和解码两个阶段。

在编码阶段，给定升级后的特征图 $F_{l}\epsilon R^{C\times H\times W}\left ( l\epsilon\left \{ IR,VIS \right \} \right )$ ，其中“I R”和“VIS”分别表示红外和可见光图像。C、H、W分别表示通道数、特征图的高度和宽度。采用Global Average Pooling (GAP)对它们进行聚合并生成 $\tilde{F_{l}}\epsilon R^{ H\times W}$ 。在第一个下采样水平，我们使用最大池化操作来保留一个邻域中最重要的信息，同时 $\tilde{F_{l}}$ 将的分辨率降低到 $1\times \frac{H}{2}\times \frac{W}{2}$ 。然后使用卷积层进一步提取特征。上述过程可表述为:

其中Conv、MP和GAP分别表示卷积算子、最大池化算子和GAP为全局平均池化算子。

$\hat{F_{l}}$ 的分辨率为 $8\times \frac{H}{2}\times \frac{W}{2}$ 。在第二个下采样层，我们使用平均池化操作对特征图进行下采样，然后将产生的结果馈送到另一个卷积层，以获得大小为 $16\times \frac{H}{4}\times \frac{W}{4}$ 的特征图 $F_{l}^{e}$ 。

在解码阶段，使用亚像素卷积层对特征映射 $F_{l}^{e}$ 上采样到 $4\times \frac{H}{2}\times \frac{W}{2}$ 将得到的结果与f_1串联起来，然后馈送到1×1卷积层。最后，采用亚像素卷积层生成源图像l的位置权重图 $F_{l}^{d}\epsilon R^{1\times H\times W}$ ，上述过程可表示为

SPC为亚像素卷积层，对于 $F_{l,i}^{d}$ 我们计算加权特征图 $F_{l,i}^{p}$ ,通过下式

通道注意力机制：

融合策略 ：利用一个1×1的卷积，即

然后，利用最大选择规则对得到的特征 $F_{con,IR}$ 和 $F_{con,VIS}$ 进行融合

最后，将上面两式进行concat后，进行卷积

残差补偿模块：

在我们的融合和超分辨率框架中，我们需要通过MUM将每个特征映射的大小增加到目标大小。然而，这个过程可能会导致源图像中的细节丢失。受反向投影网络的启发[40]，我们开发了一种简单而有效的剩余补偿机制来弥补丢失的细节。为此，我们通过模仿MUM创建了一个元规模模块(MDM)。与MUM一样，MDM也以比例因子作为输入，动态预测下尺度滤波器的权重，从而可以任意减小特征映射的大小，而无需重复训练。将模态分析和模态分析相结合，设计残差补偿模块(RCM)。设 $F_{l}^{dw}$ (l∈{I R, VIS})为特征提取网络提取的原始低分辨率特征图， $F_{l}$ 为其元升级版本。 $F_{l}^{dw}$ 与 $F_{l}$ 的元降尺度结果之间的残差计算为

利用最MUM得到了高分辨率的残差 $R_{l}^{dw}$

残差映射 $R_{IR}^{up}(R_{VIS}^{up})$ 由细粒度特征和在MUM和MDM中产生的扭曲信息组成。在SR算法中，平滑区域和部分突出结构可以很容易地恢复。因此，前几层的残差主要是未恢复的高频分量。在这种情况下，每个位置的残差系数绝对值较大，一般说明在上采样过程中图像细节信息丢失或失真较多。因此，为了更好地对融合后的图像补偿这些信息，我们将 $R_{IR}^{up}(R_{VIS}^{up})$ 按照最大选择规则进行合并: