【多尺度混合注意力Transformer:Pansharpening】

Mutiscale Hybrid Attention Transformer for Remote Sensing Image Pansharpening

(用于遥感图像泛锐化的多尺度混合注意力Transformer)
泛锐化方法在遥感图像处理中起着至关重要的作用。现有的泛锐化方法普遍存在光谱失真和缺乏空间细节信息的问题。为了缓解这些问题,我们提出了一种多尺度混合注意力转换泛锐化网络(MHATP-Net))。在该网络中,首先通过包含卷积块注意模块(CBAM)和动态卷积块的浅特征提取模块(SFEM)获取浅特征。该模块中的CBAM可以粗略地过滤初始信息,动态卷积块可以丰富SF信息。然后,使用多尺度Transformer模块获得多编码特征图像。为了有效解决光谱特征保留与空间特征恢复之间的平衡,在多尺度特征恢复模块中引入了混合关注模块(HAM)。在训练过程中,我们使用深度语义统计匹配(D2SM)损失来优化输出模型。我们在几个已知的数据集上进行了大量的实验,结果表明,与其他先进的(SOTA)方法相比,本文具有良好的性能。

INTRODUCTION

遥感图像泛锐化是近年来越来越流行的一种技术。随着遥感技术的飞速发展,通过遥感平台获取的遥感信息为人类的工作和生活提供了极大的便利。然而,由于许多物理和技术的限制,卫星大多无法直接获取高空间分辨率的MS图像。我们通常将高空间分辨率的PAN图像与低空间分辨率图像(MS)融合得到HRMS。我们可以将HRMS应用于土地利用分类、图像分割、环境监测等领域。Pansharpening方法根据其实现可以大致分为四类:基于CS的方法、基于MRA的方法、基于VO的方法和基于ML的方法。
基于CS的方法经常被称为经典的pansharpening方法。该方法将MS图像的光谱信息与空间信息分离,然后用PAN图像的空间信息代替MS图像的空间信息,提高MS图像的空间分辨率。由于该方法实现简单,许多开创性的泛锐化算法都属于CS类,如PCA、IHS方法、GS方法、波段相关空间细节(band-related spatial detail, BDSD)方案、Brovey transform等。CS方法原理简单、直观,但在融合过程中光谱信息丢失严重,泛锐化结果有较大的光谱畸变。
基于MRA的方法包括特征提取、特征融合和图像重建三个步骤。该方法从PAN图像中提取空间结构,并将其注入插值后的MS图像中。基于核磁共振成像的方法具有广泛的应用前景。该方法主要包括SFIM方法、MTF-GLP方法和transform方法,其中包含一个HPF。MRA方法比CS方法能更好地保留光谱信息,但会产生更明显的空间畸变。
近年来,基于VO的pansharpening方法因其灵活性得到了广泛的应用。该方法主要分析PAN、MS、HRMS三者之间的相互关系,构建函数模型,并通过优化能量函数对模型进行优化,以获得更好的结果。比较有代表性的例子有贝叶斯、基于稀疏重建的和基于模型的PAN锐化方法。这些方法主要通过创建正则化函数来优化pansharpening过程。基于vo的方法锐化效果优于前两种方法,但计算成本较高,优化效果受限。
传统的三种方法多为线性模型融合,只能反映有限的图像先验知识,难以在提高空间质量和保持光谱质量之间取得很好的平衡。近年来,深度学习在各种计算机视觉任务中取得了较好的效果,在遥感图像处理领域得到了广泛的应用。研究人员利用卷积神经网络(CNN)强大的表征和学习能力,构建了一种基于神经网络的通用泛锐化方法。受超分辨率网络的启发,Masi等人首先提出了第一个用于泛锐化的全卷积网络——泛锐化神经网络(pansharpening neural network, PNN),并在提出当年取得了SOTA (state of the art)的成果。尽管由于结构简单,这种网络并没有达到预期的效果,但PNN的提出激励了许多研究人员朝这个方向发展。Scarpa等提出了高级PNN (advanced PNN, a -PNN),这种方法是PNN的高级版本,它解决了训练集与不同传感器之间的不匹配问题。由于残差神经网络在图像处理中取得了很高的成绩,许多通用的泛锐化方法也在融合过程中引入了残差结构。Yang等人提出了一种比PNN更深的网络,该方法在网络输出中加入上采样的MS图像,并在高通滤波域而不是图像域训练该网络参数。虽然PNN和pansharpening network (PANNET)得到的pansharpening结果比传统方法要好得多,但由于它们是简单的模型叠加,还有很大的改进空间。基于原始残差网络,多尺度深度CNN for pansharpening (MSDCNN)将多尺度特征提取引入PANNET。Shao和Cai提出了一种考虑MS和PAN图像之间存在冗余信息的两分支深度融合网络[遥感图像融合与深度卷积神经网络(RSIFNN)]。他们把整个网络看作一个残余的单位。然后,将预测的掩模叠加到原始MS图像上,得到融合结果。该方法获得了较好的锐化效果,但也存在光谱失真和轮廓模糊的问题。Liu等设计了一种两流广义锐化网络[twostream fusion network (TFNet)],该方法分别从PAN和MS图像中提取增强的多模态特征。Xu等设计了一种基于模型的深度泛锐化方法,该方法制定了两个由深度先验正则化的优化问题。Cai和Huang提出了一种PANNET[超分辨率引导的渐进式PNN (SRPPNN)],该方法将图像超分辨率的方法应用于泛锐化。此外,考虑到真实HRMS参考图像的不可获得性,生成对抗网络(GAN)的提出给pansharpening带来了新的启发。Ma等提出了一种基于GAN的无监督方法。该方法由一个产生器、一个光谱鉴别器和一个空间鉴别器组成,这些模块相互配合以保持光谱和空间信息。

与这些方法相比,我们提出了一种多尺度混合注意力变压器PANNET (MHAT-Net)方法,该方法分为浅特征提取模块(SFEM)、多尺度Transformer密集特征编码模块(MTDF)和多级高效恢复模块(MER)。在SFEM中,CBAM非常轻巧,易于部署。因此,我们选择CBAM从初始卷积特征中获得初始融合特征。然后利用动态卷积块提取多维特征,最后通过Conv1 × 1得到SF。在MTDF中,我们通过Transformer块和下采样运算获得深度多尺度编码特征。对于Transformer,我们使用Restormer结构。Restormer不仅能够捕获远程像素交互,而且解决了传统Transformer在高分辨率图像处理方面的高时间复杂度问题。鉴于这些特点,我们选择了Restormer作为MTFEM的核心模块。在MFRM中,我们通过上采样、跳过连接和混合注意块(HAB)逐步恢复特征。为了平衡光谱信息保留和空间特征恢复,我们设计了HAB。我们的工作贡献可以概括如下。

1)在SFEM中,我们使用CBAM块获得初始特征,帮助我们过滤无用信息,然后使用动态卷积块来丰富SF图像中包含的光谱信息和空间细节。
2)在MTDF中利用复原块(Restormer block)对SF图像进行深度编码,可以有效地整合不同尺度的局部和全局信息。
3)我们提出了带有注意门(AG)的HAB,它可以减少冗余,增强恢复特征和编码特征之间的互补性。
4)采用深度语义统计匹配(D2SM)损失对训练过程进行优化,有效提高了模型的鲁棒性。

RELATED WORK

Vision Transformer

Vaswani等提出了Transformer网络结构来解决自然语言中的序列处理问题。此外,在随后的研究中,基于transformer的模型,如来自transformer的双向编码器表示(BERT)和生成式预训练(GPT),在广泛的自然语言任务中表现出优异的性能。Transformer在计算机视觉领域引起了极大的兴趣。Vision Transformer (VIT)首先将原始Transformer模型应用于一系列图像斑块,并了解它们之间的相互关系。在随后的研究中,Transformer在图像识别、目标检测、图像分割、图像场景生成等高级视觉任务中取得了优异的成绩。由于Transformer在学习图像块序列之间的远程依赖关系及其对给定输入内容的适应性方面的能力,许多基于Transformer的方法已被提出用于低级视觉任务,包括超分辨率,图像去噪,图像去噪,着色和图像生成。
在图像恢复任务中,需要输入图像和输出图像之间的像素对像素的对应关系。由于Transformer模型中自关注(SA)的计算复杂度随着图像补丁的数量呈二次增长,因此开发可以在单尺度特征处理管道上运行的Transformer模型是不可行的。研究人员已经做了很多努力来解决这个问题。Liang等提出了一种基于Swin变压器的图像恢复模型。该网络通过计算局部窗口的关注来降低SA的复杂度。Lu等为单幅图像超分辨率(SISR)设计了一种新型高效的超分辨率变压器(ESRT),该方法通过执行空间约简注意来减少计算负担。在[56]和[58]中,采用分层编码器-解码器网络进行图像恢复。与上述方法不同,Zamir等人通过在构建块中进行几个关键设计,提出了一个有效的Transformer模型。该模型可以学习远程依赖关系,同时保持计算效率。该模型在多个图像恢复任务上取得了SOTA结果。在此基础上,我们期望能够更好地捕获PAN图像的多尺度特征,以及MS图像的全局特征信息。

Attention Mechanism

对于人类来说,注意力是一种重要而复杂的认知功能,通过它,有限的资源可以从大量的感知信息中选择高价值的信息。因此,注意机制在从大量信息中过滤出有效信息方面是非常有效的。由于注意机制的优异性能,一些研究者将注意力转向了计算机视觉领域。
Itti等设计了一种基于显著性的视觉注意模型,该模型提取局部的低水平视觉特征,得到一些潜在的显著区域。Mnih等人提出了循环注意模型(RAM),这是一项将深度神经网络与注意机制相结合的开创性工作,该模型主要借助循环神经网络(RNN),通过周期性预测重要区域和策略梯度来更新整个网络的端到端。RAM和空间变压器网络(STN)是典型的空间注意方法。空间注意可以看作是一种空间区域选择的适应性机制:注意到哪里。Hu等提出了压缩激励网络(SENET),该网络通过分析输入图像通道之间的相互关系来建模。Woo等人提出了CBAM,该方法使用卷积块提取通道和空间维度上的关键特征。因为CBAM是一个轻量级的通用模块,它可以无缝地集成到任何CNN架构中,开销可以忽略不计,并且可以与基础CNN一起进行端到端训练。CBAM非常轻巧,易于部署。因此,在设计多尺度变压器泛锐化网络(MTP-Net)时,我们利用SFEM中的CBAM对MS图像和PAN图像中的有效特征进行充分滤波。
受CBAM的启发,Jia等增加了注意块来提高表征能力和全局感知,并设计了谱块和多尺度空间注意块(SMSA)。沿着信道维度展开的频谱信息通过SMSA块中所涉及的频谱注意机制进一步重新加权。我们利用来自SMSA模块的光谱关注来设计我们的HAB。
Oktay等提出了一种新的医学成像AG模型,该模型可以自动学习聚焦不同形状和大小的目标结构。Jetley等提出了一种端到端可训练的注意力模块用于图像分类。综上所述,AG可以用于混合注意工作中,有效地调整和平衡注意特征权重,从而获得完整的注意特征图。在上述工作的基础上,我们还使用AGs来帮助我们平衡混合注意模块(HAM)中的注意权重,这在第三节中有详细描述。

METHODOLOGY

Overall of MHATP-Net

在这里插入图片描述

提出的MHATP-Net框架如图1所示。该网络分为四个模块:1)SFEM;2)多尺度Transformer特征编码模块;3)多尺度特征恢复模块;4) D2SM损失优化模块。首先,SFEM从输入的PAN图像IPAN R H × W × 1 R^{H×W×1} RH×W×1和输入的MS图像IMS R H × W × 3 R^{H×W×3} RH×W×3中过滤SF SF R H × W × C R^{H×W×C} RH×W×C (H、W、C分别表示特征通道的高度、宽度和大小)。在本模块中,采用CBAM[41]对特征信息进行初始过滤。利用动态卷积块来丰富SF图像的信息。SF由多尺度Transformer特征编码模块处理,得到多尺度特征编码图像FEnc[i] R ( H / 2 i − 1 ) × ( W / 2 i − 1 ) × 2 i − 1 C R^{ (H/2^{i−1})×(W/2^{i−1})×2^{i−1}C} R(H/2i1)×(W/2i1)×2i1C。该模块采用了Restormer,其计算复杂度低,性能优异。最后,通过多尺度特征恢复模块得到预测图像输出∈ R H × W × 3 R^{H×W×3} RH×W×3。在该模块中,采用混合关注来平衡光谱保存和空间信息恢复。
我们整体框架的算法推理过程如算法1所示在这里插入图片描述

SF Extraction Module在这里插入图片描述

如图2(a)所示,首先,对于输入到MHATP-Net中的MS图像IMS R H × W × 3 R^{H×W×3} RH×W×3和PAN图像IPAN R H × W × 1 R^{H×W×1} RH×W×1,我们分别通过卷积3 ×3得到它们的第一层特征图像M×3, P×3 R H × W × 3 R^{ H×W×3} RH×W×3,其核大小为3。然后通过Conv3 ×3混合M×3和P×3,并通过CBAM对关键特征进行过滤;这两种运算得到初始融合特征图像IFF∈ R H × W × C R^{H×W×C} RH×W×C
本部分的定义如下:在这里插入图片描述
该模块帮助我们获得尽可能多的空间和光谱信息;在消融研究中,我们将验证该模块的有效性。如图2(b)所示,通过通道注意和空间注意获取特征图像。在获取初始融合特征图像的过程中,我们使用CBAM对关键特征图像进行过滤。该方法的定义如下:在这里插入图片描述
其中,CA(·)为计算注意权值的函数,SA(·)为计算空间注意权值的函数。如图2©所示,通道关注主要通过池化、MLP等操作对关键特征进行过滤,定义如下:在这里插入图片描述
如图2(d)所示,空间注意根据其空间特征,通过池化得到空间特征图分布。通道注意和空间注意的具体原理如下:在这里插入图片描述
在本模块中,使用CBAM对初始卷积特征进行粗略过滤。利用动态卷积来丰富SF信息。在烧蚀实验的第四节中,我们将演示该模块的有效性。

Multiscale Transformer Feature Encoding Module

为了在pansharpening过程中获得更好的空间细节和真实的光谱信息,我们使用多尺度Transformer block对SF图像SF∈R H×W×C进行尽可能多的信息采集。受生物医学图像分割(UNET)卷积网络结构的启发,我们通过降采样操作和Transformer块获得不同层次的特征编码图像FEnc[i] R ( H / 2 i − 1 ) × ( W / 2 i − 1 ) × 2 i − 1 C R^{(H/2^{i−1})×(W/2^{i−1})×2^{i−1}C} R(H/2i1)×(W/2i1)×2i1C。该模块的定义如下:在这里插入图片描述
我们通过一个深度的Transformer块得到第一层的编码器特征图像FEnc[1] R H × W × C R^{H×W×C} RH×W×C。然后,我们通过T Bi(1≤i≤4)和DB↓收集其他三个级别的编码器特征图像fFEnc[i] R ( H / 2 i − 1 ) × ( W / 2 i − 1 ) × 2 i − 1 C R^{(H/2^{i−1})×(W/2^{i−1})×2^{i−1}C} R(H/2i1)×(W/2i1)×2i1C
本文选择Restormer作为Transformer block。选择Restormer有两个主要原因。首先,Restormer采用multi-Dconv head transposed attention (MDTA)代替牵引SA, MDTA具有线性复杂性,因此更适合多分辨率视觉任务。第二个原因是Restormer提出了一种新的门控-直流前馈网络(GDFN)。这个块可以极限特征,有效地获取了很少的信息。通过这个模块,我们可以尽可能多地收集有效的信息。与牵引编码器模块相比,这些块可以帮助我们将更有效的光谱和光谱信息编码成编码器特征图像。
MDTA和GDFN对于Restormer来说都是非常重要的,这两个模块的输入信息将通过层归一化进行归一化[LN(·)]。如图3所示,MDTA从层归一化的输入信息^ F L F^{L} FLI R H × W × C R^{H×W×C} RH×W×C计算跨通道的交叉协方差,通过这一步得到隐式编码的全局上下文注意映射FK R H × W × C R^{H×W×C} RH×W×C由于SA是跨通道而不是空间维度应用的,因此MDTA具有线性复杂性。此外,MDTA还引入深度卷积,在计算特征协方差生成全局注意力图之前强调局部上下文。GDFN通过门控机制和深度卷积对MDTA得到的特征进行变换。总体实现原理如下在这里插入图片描述
牵引SA的复杂度随着输入图像尺寸的增长呈二次增长;其复杂度取决于输入图像的大小,我们通常用H和W来表示输入特征图像的高度和宽度。MDTA极大地解决了这个问题。如图3(b)所示,MDTA巧妙地计算跨通道互协方差来隐式编码关键特征注意图的全局上下文,该方法还使用深度卷积D3×3来强调局部特征上下文。具体原理如下:在这里插入图片描述
在这里插入图片描述
GDFN模块的主要结构如图3©所示。该模块通过门控机制和深度卷积对传统FN网络进行改进[43]、[46]。我们可以更好地学习输入图像的局部特征。方法定义如下:在这里插入图片描述
其中µ(·)表示高斯误差线性单元(GeLU)非线性激活函数,∩(A, B)表示A与B之间逐像素相乘。
该模块从SFs中提取多尺度特征信息,并在全局范围内深入挖掘光谱和空间特征信息。该模块为以后的特性恢复模块提供了强有力的支持。

Multiscale Feature Recovery Module

在这个模块中,我们设计了一个带有AG的HAB,以研究级联图像的光谱和空间特征信息,因为在前面的CBAM介绍中已经详细解释了空间注意力。在这一部分中,我们将详细介绍总体描述、光谱关注和混合AG (HAG)。在这里插入图片描述

  1. Overall Description:如图4所示,空间注意块和光谱注意块得到空间特征图像在这里插入图片描述
    2)Spectral Attention: 在本模块中,为了更好地从多编码器特征FEnc[i] R ( H / 2 i − 1 ) × ( W / 2 i − 1 ) × 2 i − 1 C R^{(H/2^{i−1})×(W/2^{i−1})×2^{i−1}C} R(H/2i1)×(W/2i1)×2i1C中恢复完整的空间特征和频谱特征,我们使用了CBAM和频谱注意[68]在跳跃连接中的一部分空间注意。光谱注意力结构如图4(b)所示,输入特征图像FI∈R H×W×C采用最大池化MP(·)和平均池化AP(·)进行池化;然后,利用Conv3 × 3(·)、串联算子(⊙)和sigmoid激活函数sigmoid(·)得到谱特征。谱注意的定义如下:在这里插入图片描述
    3)Hybrid AG:为了更好地平衡空间和光谱信息,受到AG的启发,我们设计了一种有效的结构,命名为HAG。如图4©所示,该块的输入是三幅特征图像,分别是空间特征图像、光谱特征图像和混合特征图像在这里插入图片描述
    该块定义如下:在这里插入图片描述
    该模块不仅可以有效地利用跳接和卷积恢复特征信息,而且还提出了一种动态平衡频谱信息保留和空间信息恢复的HAM。

Loss Function

在这里插入图片描述

在训练过程中,我们需要使用损失函数对网络进行优化,以获得更好的模型。多分辨率视觉任务使用样本间距离来计算损失以优化训练过程,如SSIM、均方误差(mean squared error, MSE)等。但是,这些损失函数可能会忽略参考图像与预测图像之间的内在相关性。近年来,大量研究期望通过感知损失在更深层次上学习图像之间的相关性,以使预测图像接近参考图像。Mei等人提出了D2SM损失函数,该方法通过自然语言中的单个语义patch隐式度量参考图像与预测图像在语义特征空间上的差异,并利用这种损失更好地满足主观视觉偏好。在本文中,我们希望预测图像能更接近真实图像,表述如下:在这里插入图片描述
如图5所示,首先,我们得到预测图像和参考图像的切片对应的切片组合。然后,生成相应的视觉几何图形组(VGG)特征图像VGGF,通过预训练的VGG模型,通过计算两组VGG特征估计的概率分布(Segpred和SegGT)的散度得到相应图像的损失值。总体总结如下:在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值