Image Fusion Transformer
- 【引用格式】:Vibashan V S , Valanarasu J , Oza P , et al. Image Fusion Transformer[J]. 2021.
- 【开源代码】:GitHub - Vibashan/Image-Fusion-Transformer: Official Pytorch Code base for Image-Fusion-Transformer
一、瓶颈问题
- 现有的基于CNN融合技术通过学习局部特征来提高泛化能力,克服了传统方法的缺点(依赖手工特征提取、耗时、设计特定的融合规则),但是它们无法提取图像中的长距离的相关性,这导致丢失一些可能对融合图像有用的基本全局上下文。
二、 本文贡献
本文提出了一种基于Transformer的多尺度融合策略,同时关注局部和长距离信息(或全局上下文)
-
1、我们提出了一种新的融合方法,称为Image Fusion Transformer(IFT),它利用局部信息和模型的长期依赖性来克服当前图像融合工作中存在的缺乏全局上下文理解的问题。
-
2、提出的方法利用了一种新的空间变换器 [Spatio-Transformer(ST)] 融合策略,其中spatial CNN分支和transformer分支被用来利用局部和全局特征来更好地融合给定的图像。
-
3、在多个融合基准数据集上对所提出的方法进行了评估,与现有的融合方法相比,取得了有竞争力的结果。
三、 解决方案
- 提出的 Image Fusion Transformer 网络
1、模型架构
- Four encoder blocks
- 每个编码块包含一个核大小为3x3的卷积层,其次是RELU和最大池化操作
- 对输入源图像,从编码网络的每个卷积块中提取多尺度的深层特征。
- The ST fusion network
- ST融合网络由空间分支和变压器分支组成。
- spatial branch:由conv层和bottleneck层组成,用于捕获局部特征。
- transformer branch:由基于轴向注意的transformer块(axial attention-based transformer block)组成,用于捕获长距离依赖关系(或全局上下文)
- ST融合网络对两幅图像中提取的特征进行多尺度融合
- ST融合网络由空间分支和变压器分支组成。
- The nested decoder network
- 解码器网络基于RFN Nest架构
- 将融合后的特征作为输入到训练的嵌套解码网络,得到融合后的图像
2、self-attention and axial-attention
-
自注意力:
-
输入特征: x ∈ R C i n × H × W x\in R^{C_{in}×H×W} x∈RCin×H×W
-
输出特征: y ∈ R C o u t × H × W y\in R^{C_{out}×H×W} y∈RCout×H×W
-
任意位置的query、key、value: q i , j , k i , j , v i , j q_{i,j},k_{i,j},v_{i,j} qi,j,ki,j,vi,j
-
输入与输出的关系:
自注意力计算了整个特征图中的远距离关系
-
-
轴向注意力:
-
背景:自注意力机制的计算复杂度为2次方,计算量大;因此,[31]采用了计算效率更高的轴向注意力机制,将计算复杂度降低
-
在轴向注意中,自我注意首先在特征图高度轴上执行,然后在宽度轴上执行,从而降低计算复杂度
-
此外,Wang[32]提出了一种可学习的位置嵌入方法,用于轴向注意query, key和value,以使注意力机制对位置信息敏感。这些位置嵌入是在训练期间共同学习的参数。
-
高度轴上的自注意力机制可以计算为:
其中,r是高度轴的位置嵌入
对于轴向注意力机制,我们沿着高度和宽度轴计算公式2,这提供了一个计算效率高的自我注意模型
-
3、Spatio-Transformer (ST) fusion strategy
-
ST融合块(ST Fusion Block)
-
Spatial branch: 使用卷积块和瓶颈层来捕获局部特征
-
Transformer branch: 使用轴向注意对长期依赖关系进行建模,从而学习全局语境特征
-
将这两个特征相加,得到包含增强的局部和全局上下文信息的融合特征图。
-
-
在多个尺度上应用我们的ST融合策略,然后将其转发到解码器网络以获得最终的融合图像。
4、Loss function
- 提出的方法是为了训练一个模型,能够保持良好的结构细节,并保留显著的前景和背景细节。
- IFT的训练目标函数:
- 结构相似性损失【像素级】:
- 特征相似性损失【特征级】:
其中, Φ f m \Phi_f^m Φfm表示融合特征图, Φ I 1 m , Φ I 2 m \Phi_{I_1}^m,\Phi_{I_2}^m ΦI1m,ΦI2m分别表示源图像1和2的特征图; ω 1 , ω I 1 , ω I 2 \omega_1,\omega_{I1},\omega_{I2} ω1,ωI1,ωI2为权重系数
这一损失限制了融合后的深度特征以保留显著结构,从而增强了融合特征空间以学习更多显著特征并保留细节。
四、 实验结果
1、实验设置
(1)Visible and infrared fusion
- 训练集:KAIST dataset (80000 pairs of visible and infrared images)
- 测试集:TNO Human Factors dataset (21 pairs of visible and infrared images)
- 图像预处理:尺寸调整为256×256
- 参数设置: w I 1 , w I 2 , w 1 , α = 6 , 3 , 100 , 700 w_{I1},w_{I2},w_1,α = 6, 3, 100, 700 wI1,wI2,w1,α=6,3,100,700
(2) MRI and PET image fusion
- 训练集:Harvard MRI and PET datasets (9981 cropped patches with image pairs)
- 测试集:Harvard MRI and PET datasets (20 pairs of MRI and PET images)
- 图像预处理:尺寸调整为84×84,PET图像转换到IHS颜色空间上,PET的I通道与MRI图像融合
2、Infrared and visible image fusion
-
定量评估
- 在En(Entropy)和MI(Mutual Information)评估指标上超越的其他方法,表明本文的方法可以捕获局部和远距离依赖,生成更清晰的内容,并保留大部分视觉信息。
- 在SCD和MS-SSIM 度量指标上具有竞争力
-
定性评估
- 红框:捕获长程依赖性会使得在整个人类中为IFT分配相同的强度(与周围环境比较协调)
- 黄框:本文的模型可以重建精细的细节
3、MRI and PET image fusion
-
定量评估:
- 在En(Entropy)和CC(Correlation Coefficient)评估指标上超越了现有的方法
- 在SD(Standard Deviation)和MG(Mean Gradient)指标上取得了具有竞争力的表现
-
定性评估:
- Structure-aware方法在融合图像上缺乏颜色强度变换,而DDcGAN和IFT方法显示出更好的强度变换和更明亮的颜色
- IFT颜色变化相比于DDcGAN更类似于PET
4、Ablation Study
- 背景:
- 基于空间的图像融合仅使用局部特征进行融合,而基于变换器的图像融合使用长距离依赖进行融合操作。
- 同时捕捉局部和远程特征对于理解全局表示是至关重要的
- 提出的ST Fusion Network通过同时捕获局部和远程依赖关系,在所有度量上都优于仅基于空间或基于变换的图像融合。
- 这也说明了通过将长距离相关性与局部特征相结合能够改善图像融合的性能。