本文的主要贡献包括以下几点
1)端到端模型:本研究提出了一种新的端到端红外和可见光图像融合框架FusionGRAM,该框架可以自适应学习不同模态的特征。
2)特征增强:本研究提出了使用带有注意模块的密集连接块(DCBAM)来提取不同模态的特征。得到的特征映射集中在源图像的关键信息上,提供了比融合结果更好的亮度和对比度。在编码器的结构中引入了梯度残差。梯度残差块(GRB)对源图像的细节特征进行补偿,从而增强融合结果的纹理细节信息。
3)设计良好的损失函数:将最大强度和最优梯度损失作为损失函数来训练网络,并使用超参数来调整两者的比值。训练结果表明,该方法融合后的图像具有最优的像素分布和最丰富的细节信息。此外,使用无监督训练策略可以有效地克服缺乏基础真理的问题。
网络体系结构
该框架采用编码器-解码器结构,其中编码器对源图像进行特征提取,解码器重建融合后的图像。编码器由红外通道和可见光通道组成;每个特征提取通道由卷积层、DCBAM和GRB组成。解码器由四个卷积层串联而成。具体网络参数如表1所示。编码器和解码器的激活函数均采用(ReLU)。
让表示一对注册的红外和可见光图像。从这些图像中提取的深度特征可以表示为
DCBAM的结构
它使用注意力机制来处理密集的连接。使用密集连接而不是传统卷积层的优势在于可以重用特征映射,这大大减少了参数的数量。使用跳过连接将细节特征按元素方式添加到DCBAM输出特征中,以融合深度和细粒度的细节特征。降采样操作造成的信息丢失会导致融合图像的详细信息丢失,不利于图像融合任务的完成。因此,该融合框架不引入降采样操作,融合后的图像保持与源图像相同的分辨率。
GRB结构
GRB提取细粒度细节作为补偿特征,帮助解码器重建融合图像。图显示了GRB的组成,它是ResBlock的变形。 Resblock
它使用3 × 3卷积计算梯度来提取网络的浅层细节。使用Sobel算子作为卷积核。1 × 1的卷积消除了通道之间的维度差异。
其中Sobel算子由大小为3 × 3的两个卷积核Kx和Ky组成,其中Kx用于计算水平方向的梯度,Ky用于计算垂直方向的梯度。Kx和Ky表示为:
输入的原始特征图F、水平梯度图Gx、垂直梯度图Gy分别表示为:
其中*表示卷积运算。GRB的最终输出表示如下:
其中|·|表示绝对值。编码器的最终输出是源图像在高维空间中的特征映射。
因此,通过通道间拼接将红外和可见光特征融合,解码器对融合的特征进行特征重构以获得融合图像。融合重建过程如下:
通道和空间注意(CSA)模块
图显示了CSA的架构,它是一个优先考虑空间而不是信道注意力的串行结构。卷积块注意模块(CBAM)已经证明了该结构在其他视觉任务中的有效性。
为了计算通道注意图,首先对输入特征分别进行average-pooling和maxpooling操作。然后将得到的中间算子和输入到共享网络多层感知器(MLP)中,输出由sigmoid函数激活生成通道注意特征图。在计算空间注意图时,池化操作沿着通道轴进行计算。然后将描述符和进行连接和卷积来计算空间注意力特征图,Mc和Ms的计算公式如下:
其中σ表示sigmoid函数,表示共享权值。假设输入特征图为Fi, CSA依次计算通道注意图Mc和空间注意图Ms,如图3所示。CSA最终输出的注意力特征图Fo表示为:
损失函数
融合后的图像既要保留可见光图像中的纹理细节,又要突出目标的红外热信息。因此,利用像素强度和细节损失来设计损失函数。
其中α和β设置为平衡像素强度损失和细节损失,以获得更好的视觉质量和更高的评估指标。
Lpixel和Ldetail的计算方法如下:
式中,H表示图像的高度,W表示图像的宽度,max(·)表示元素的最大选择操作,|·|表示绝对值。
利用最大选择策略突出红外图像中感兴趣的目标,使其在融合图像中更加突出。Sobel梯度算子是∇。在细节损失函数中进行最大梯度运算,假设融合图像中的纹理细节信息是源图像中最大的纹理细节信息集。
实验与训练内容参考论文吧
学习心得:1.将CBAM模块应用于图像融合
2.改进的Resblock模块的GRB模块,明天学。。。