红外与可见光图像融合论文心得（五）--FusionGRAM（一个完全卷积的模型，没有单独的融合层，可以实现端到端的训练和图像融合）

本文链接：https://blog.csdn.net/weixin_69464301/article/details/135443457

本文提出了一种新的端到端图像融合框架FusionGRAM，通过DCBAM增强特征、GRB提供细节补偿和设计的损失函数优化像素强度与细节。该框架结合了注意力机制和改进的ResBlock，旨在提升融合图像的质量和细节丰富度。

摘要由CSDN通过智能技术生成

本文的主要贡献包括以下几点

1)端到端模型:本研究提出了一种新的端到端红外和可见光图像融合框架FusionGRAM，该框架可以自适应学习不同模态的特征。

2)特征增强:本研究提出了使用带有注意模块的密集连接块(DCBAM)来提取不同模态的特征。得到的特征映射集中在源图像的关键信息上，提供了比融合结果更好的亮度和对比度。在编码器的结构中引入了梯度残差。梯度残差块(GRB)对源图像的细节特征进行补偿，从而增强融合结果的纹理细节信息。

3)设计良好的损失函数:将最大强度和最优梯度损失作为损失函数来训练网络，并使用超参数来调整两者的比值。训练结果表明，该方法融合后的图像具有最优的像素分布和最丰富的细节信息。此外，使用无监督训练策略可以有效地克服缺乏基础真理的问题。

网络体系结构

该框架采用编码器-解码器结构，其中编码器对源图像进行特征提取，解码器重建融合后的图像。编码器由红外通道和可见光通道组成;每个特征提取通道由卷积层、DCBAM和GRB组成。解码器由四个卷积层串联而成。具体网络参数如表1所示。编码器和解码器的激活函数均采用(ReLU)。

让 $\left \{ I_{ir},I_{vi} \right \}$ 表示一对注册的红外和可见光图像。从这些图像中提取的深度特征可以表示为

DCBAM的结构

它使用注意力机制来处理密集的连接。使用密集连接而不是传统卷积层的优势在于可以重用特征映射，这大大减少了参数的数量。使用跳过连接将细节特征按元素方式添加到DCBAM输出特征中，以融合深度和细粒度的细节特征。降采样操作造成的信息丢失会导致融合图像的详细信息丢失，不利于图像融合任务的完成。因此，该融合框架不引入降采样操作，融合后的图像保持与源图像相同的分辨率。

GRB结构

GRB提取细粒度细节作为补偿特征，帮助解码器重建融合图像。图显示了GRB的组成，它是ResBlock的变形。 Resblock

它使用3 × 3卷积计算梯度来提取网络的浅层细节。使用Sobel算子作为卷积核。1 × 1的卷积消除了通道之间的维度差异。

其中Sobel算子由大小为3 × 3的两个卷积核Kx和Ky组成，其中Kx用于计算水平方向的梯度，Ky用于计算垂直方向的梯度。Kx和Ky表示为:

输入的原始特征图F、水平梯度图Gx、垂直梯度图Gy分别表示为:

其中*表示卷积运算。GRB的最终输出表示如下:

其中|·|表示绝对值。编码器的最终输出是源图像在高维空间中的特征映射。

因此，通过通道间拼接将红外和可见光特征融合，解码器对融合的特征进行特征重构以获得融合图像。融合重建过程如下:

通道和空间注意(CSA)模块

图显示了CSA的架构，它是一个优先考虑空间而不是信道注意力的串行结构。卷积块注意模块(CBAM)已经证明了该结构在其他视觉任务中的有效性。

为了计算通道注意图 $M_{c}\in R^{C\times 1\times 1}$ ，首先对输入特征分别进行average-pooling和maxpooling操作。然后将得到的中间算子 $F_{Max}^{C}$ 和 $F_{avg}^{C}$ 输入到共享网络多层感知器(MLP)中，输出由sigmoid函数激活生成通道注意特征图。在计算空间注意图时，池化操作沿着通道轴进行计算。然后将描述符 $F_{Max}^{S}$ 和 $F_{avg}^{S}$ 进行连接和卷积来计算空间注意力特征图 $M_{S}\in R^{1\times H\times W}$ ,Mc和Ms的计算公式如下: