红外与可见图像融合论文心得（四）--CrossFuse（一种新的基于交叉注意机制的红外与可见光图像融合方法）

最新推荐文章于 2024-07-05 18:00:22 发布

停在你这里.

最新推荐文章于 2024-07-05 18:00:22 发布

阅读量1.3k

点赞数 23

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/weixin_69464301/article/details/135411010

版权

本文主要工作：

1. 本文引入了一种交叉注意机制来增强多模态特征。所提出的机制通过有效地增加互补特征来优化融合过程，从而使结果更加准确和全面。

2. 本研究提出了一种新的混合融合网络，将卷积层的优势与注意机制(自注意机制和交叉注意机制)相结合，用于多模态图像融合。该方法有利于从源图像中提取深度特征，保持细节信息，增强互补信息。

3. 实验结果表明，本文提出的方法是当前融合技术的一种有前途的替代方法。它为多模态图像融合任务提供了一种更加鲁棒和高效的解决方案。

网络结构

本文提出的基于CAM的融合网络主要针对图像融合任务的基本问题，即图像融合任务中的交叉注意机制应增强互补(不相关)信息，减少冗余(相关)特征。

编码器结构

交叉注意机制 CAM

CAM的架构如图所示。

利用两个不同参数的分支从两个模态中提取特征。每个模态特征首先被馈送到自注意(SA)块中，以增强内部特征，这符合自注意的洞察力。为了进一步增强内部特征，在CAM中还引入了移位操作，将特征的位置进行水平和垂直移动。然后，使用另一个SA块对移位的特征进行增强，使其包含更多的全局信息。在交叉注意之前，使用“unshift”来恢复位置。因此，SA的数量是CA的两倍。

在获得内部增强特征后，引入了交叉注意块。SA的公式如下:

$x^{c}$ 表示SA的输入，𝑄𝑐、𝐾𝑐和𝑐表示输入的不同表示，𝑑为输入向量的维数。 $U_{qkv}$ 是一个可以通过全连接层学习的变换矩阵。𝑛𝑜𝑟𝑚(⋅)表示线性范数运算，MLP(⋅)表示多层感知器。

CA的计算公式如下

其中 $\hat{c}$ 和𝑐表示不同的模态。

SA和CA的主要区别在于，在矩阵相乘后的激活函数。对于不同的模态，应该增强互补(不相关)信息而不是冗余(相关)特征。因此，我们将一个新的激活函数，反向softmax(re-softmax)嵌入到交叉注意机制中，其公式如下:

通过re-softmax(⋅)，CA块可以专注于不同模态之间的不相关信息。

解码器结构

该解码器中，包含了多个卷积层和上采样操作。架构如图所示。为了更好地增强显著特征并从源图像特征中保留更多的细节信息，我们的网络在编码器和解码器之间引入了两个跳过连接，其中用于显著特征的深度特征连接和用于细节信息的浅连接。此外，将特征强度感知策略应用于解码器中，实现多层次特征融合，公式为

式中(⋅)表示在深层特征中的位置， $\Phi _{c}^{m}$ 表示CAM提取的特征， $\Phi _{ir}^{m}$ 和 $\Phi _{vi}^{m}$ 表示源图像(红外和可见光)的特征。∇𝑚分别为浅层特征和深层特征的细节信息提取器和基础信息提取器。∇𝑚的公式如下:

其中⊗𝑘∇为提取基信息的卷积运算的核。∇𝑑𝑒𝑒𝑝关注显著特征，∇𝑠𝑎𝑙𝑙𝑜𝑤增强细节信息。

损失函数

为了训练融合框架，采用了两阶段训练策略。首先，对每个模态(红外和可见光)构建一个自编码器网络，利用该网络重构输入;然后，根据每个模态训练好的编码器，使用多模态数据和所提出的损失函数对所提出的CAM和解码器进行训练。

编码器为第一阶段

在第一阶段，对编码器进行训练，提取有利于生成融合图像的丰富特征，其框架如图所示。由于红外和可见光之间存在特征差距，因此对每种模态训练不同的参数是合理的。

如图所示，这两种自编码器的网络结构相同，但参数不同。两个跳跃连接用于保存浅特征(细节)和深特征(突出)。

此外，为了训练自编码器网络，引入了像素级损失( $\left \| \cdot \right \|_{F}^{2}$ )和结构相似度损失(𝑆𝑆𝐼𝑀)。自编码器的损失函数如下:

其中 $I_{c}^{r}$ 表示具有特定模态(红外或可见光)的重构图像， $w_{s}$ 表示设置为1𝑒4的权衡参数。

第二阶段为CAM和解码器

在第二阶段，使用固定的编码器，对所提出的CAM和解码器进行训练。如图所示，在固定编码器和解码器之间，也将两个跳过连接应用到最后阶段

由于融合后的图像需要包含更多的互补特征，并减少来自不同模态的冗余信息，提出了一种新的基于注意力的损失函数来训练我们的网络。我们的损失函数的公式如下:

其中𝑤𝑔表示两个项之间的权衡参数，设置为10。 $L_{int}$ 和 $L_{gra}$ 分别表示强度损失和梯度损失。

强度损失函数:像素强度表示融合图像的主要部分，如光照、轮廓等。通常，这些信息并不总是以单一形式出现。因此，在损失函数中引入强度掩模，如下所示

F为融合后的图像， $M_{ir}$ 和 $M_{vi}$ 表示不同模态的强度掩模。

掩码的计算方法如下:

其中 $loc_{ir}$ 和 $loc_{vi}$ 表示源图像的局部patch的平均值。这些值的计算方法如下:

其中 $avg_{c}$ 表示通过均值滤波器∇𝑎得到的单模态(𝑐∈{ir，vi})值，其中核大小为11 × 11。

梯度损失函数:由于强度损失函数只关注光照和轮廓信息，因此使用梯度损失函数来保证细节信息的保留。梯度损失函数的公式如下:

其中∇𝑔表示核尺寸为3 × 3的均值滤波器。核尺寸较小的均值滤波器可以提取出更高的鲁棒性特征和更多的细节信息

网络结构中的不结构的影响

“SA”块和“CA”块的个数

与两个区块(s2-c2)和三个区块(s3c3)相比，一个SA区块和一个CA区块(s1-c1)的网络获得了更好的度量值(EN, SD, MI)。虽然深度架构在许多视觉任务中表现较好，但在图像融合等低级视觉任务中并不总是正确的。此外，本文提出的网络是一个轻量级的体系结构，深层特征包含较少的语义特征，这就是为什么s1-c1具有更好的融合性能。

𝑟𝑒-𝑠𝑜𝑓𝑡𝑚𝑎𝑥和shift操作的影响

如上表所示，在没有这两个关键操作的情况下，融合结果的细节会降低，显著物体的强度也会降低，所以re-softmax()调换操作有助于保留更详细的信息(En, SD)和增强互补特征(MI)。

CAM的影响

为了评估CAM的有效性，我们使用了两种架构(CNN和Dense)来取代我们融合网络中的CAM。

CAM有效地增强了多模态图像中的互补特征，确保了突出目标和详细信息的保存。

论文出处：CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach-All Databases (clarivate.cn)

学习感悟： 1.CAM 模块的结构

2.re-softmax函数

停在你这里.

关注

23
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
红外与可见图像融合论文心得（四）--CrossFuse（一种新的基于交叉注意机制的红外与可见光图像融合方法）

1. 本文引入了一种交叉注意机制来增强多模态特征。所提出的机制通过有效地增加互补特征来优化融合过程，从而使结果更加准确和全面。2. 本研究提出了一种新的混合融合网络，将卷积层的优势与注意机制(自注意机制和交叉注意机制)相结合，用于多模态图像融合。该方法有利于从源图像中提取深度特征，保持细节信息，增强互补信息。3. 实验结果表明，本文提出的方法是当前融合技术的一种有前途的替代方法。它为多模态图像融合任务提供了一种更加鲁棒和高效的解决方案。
复制链接

扫一扫