遥感图像语义分割论文(2):GLOTS---Rethinking Transformers for Semantic Segmentation of Remote Sensing Images

本文介绍了GLOTS,一种使用Transformer编码器和解码器的遥感图像语义分割框架,解决现有方法中特征一致性问题和全局语义捕捉不足。通过MIM预训练和多尺度局部特征融合,GLOTS在多项实验中展示了优越性能。
摘要由CSDN通过智能技术生成

本文是对TGRS 2023有关遥感图像语义分割论文的总结,如有侵权即刻删除!

遥感图像语义分割论文精读总结:Rethinking Transformers for Semantic Segmentation of Remote Sensing Images

Paper <<Rethinking Transformers for Semantic Segmentation of Remote Sensing Images>>

Code: https://github.com/lyhnsn/GLOTS  (本人努力复现中!)

       论文提出了一种用于遥感图像语义分割的全局-局部Transformer分割器(GLOTS:global-local transformer segmentor)框架,通过使用Transformer进行编码和解码来获得一致的特征表示,弥补了现有模型存在的:①将Transformer编码器与基于CNN的解码器相结合,导致特征表示不一致;②全局和局部上下文信息利用策略的有效性不足  的问题。

文章目录


Introduction

       遥感图像的语义分割是指为图像中的每个像素分配一个语义标签,但遥感图像的空间尺度大,目标样本异构,且具有多尺度特征,使其具有很大挑战性。

       现如今很多方法都是结合Transformer和CNN来实现语义分割,例如:采用Swin Transformer作为编码器而CNN作为解码器或将Swin Transformer与CNN结合进行特征提取,证明了Swin Transformer对图像建模的鲁棒性。然而,Transformer编码器和CNN解码器并不是完全兼容的,这可能会导致不一致的特征表示。此外,由于遥感图像通常比自然图像大得多,而Swin Transformer无法捕获大规模的全局语义上下文,因此Swin Transformer可能不适合用于遥感图像的全局特征提取。

       基于以上分析,论文提出了一种新的RS图像语义分割框架GLOTS(Global Local Transformer Segmentor),该框架使用Transformer作为编码器和解码器,以获得一致的特征表示。具体来说,GLOTS使用原ViT作为全局上下文建模的编码器,并采用掩膜图像建模(MIM)预训练的方法来产生图像的更多语义特征;对于解码器,GLOTS采用FSAM将编码后的特征分解成多个尺度进行多尺度建模,并产生额外的聚合细节以增强分割性能。为了进行充分的全局-局部上下文建模,GLOTS灵活运用全局注意力块(GAB)、局部注意力块(LAB)和转移注意力块(SAB)进行全局-局部特征获取和信息交互。此外,使用可学习的渐进上采样策略(LPUS)恢复编码特征的分辨率,可以获得比广泛使用的多尺度融合策略更有竞争力的性能,并且与固定的双线性插值相比更加灵活。

Method

       如下图所示,GLOTS结构由一个MIM Transformer编码器和一个全局-局部Transformer解码器组成。全局-局部Transformer解码器包含两个主要部件:一个FSAM和一个GLAM。具体实现过程:MIM Transformer编码器从RS图像中提取语义丰富的特征,然后通过全局-局部Transformer解码器进行解码。在解码过程中,FSAM将编码后的特征分离为多尺度特征,并产生额外的聚合特征。之后,GLAM充分利用不同尺度的信息,实现全局-局部信息的获取和融合,其中上采样中的细节信息通过将LPUS嵌入到GLAM中获得。此外,还引入了一个辅助损失来加速收敛。

GLOTS框架
a
b
      MIM预训练的Transformer编码器用于提取输入图像的语义和外表信息。其中MIM是一种受BERT的启发 而利用自掩码预训练机制的视觉预训练方法 。(具体MIM预训练方法可以参考链接 https://zhuanlan.zhihu.com/p/381345343,个人觉得十分详细,包括图a中的各部分细节)

       如上左图所示,FSAM模块通过对Transformer编码器输出的特征图分别进行不同大小的上下采样操作,得到四个不同尺度的特征,从而为后续的全局-局部注意力计算提供了多尺度的特征表示。此外,FSAM还采用了一个额外的聚合分支(图中红线)来融合多尺度特征和解析编码特征的语义信息。之后,FSAM生成的层次化特征被相应的注意力块用于全局和局部特征的获取,具体来说,将所有特征输入到LAB中进行局部注意力计算,并从最粗粒度的特征到最细粒度的特征逐级解析局部注意力图。此外,通过额外的GAB获取最粗的全局特征进行全局注意力计算,并通过SAB对注意力图进行融合,得到最终的特征表示。

       注意:如上右图中注意力的计算依照两个patch的相似度来计算。

       上左图所示为多尺度融合上采样(MSFU)策略,其将来自不同尺度的表示进行级联之后执行上采样。然而,此种策略上采样后的特征与后续的解码过程是分离的,这可能导致细粒度细节的丢失。

       上右图为融合渐进上采样策略的多尺度渐进上采样(MSPU)策略,其使用FSAM生成的多尺度特征进行上采样,相同尺度的级联特征在后续的Transformer解码器层进行解码处理。

      论文中采用的为可学习的渐进上采样策略LPUS,与MSPU一样,LPUS拟采用可学习的转置卷积操作,替代上采样过程中的双线性插值。转置卷积操作可以看作是一个分式卷积。也就是说,一个2×的上采样操作可以通过步长为\frac{1}{2}的卷积来实现。这种LPUS比之前的上采样策略更加灵活和自适应,并可以与Global-Local transformer解码器一起训练,以恢复原始图像的粗粒度语义特征和细粒度细节。

       一般来说,语义分割任务通常采用一个辅助损失来加速模型的收敛并提高性能。论文中cross-entropy loss(交叉熵损失)被用作主要损失函数,focal loss被用作辅助损失。其中focal loss是交叉熵损失的一种变体,旨在缓解训练集的不平衡问题,有利于硬样本挖掘。


Experiment

Datasets:  Vaihingen、 Potsdam、LoveDA

注意:详细实验数据请移步原论文!

① 不同编码器的比较:Resnet50、ViT-B、DeiT-B、Swin-B、MIM-pretrained

② 全局-局部Transformer解码器的有效性:FSAM和GLAM分别讨论

③ 不同上采样方法的比较:direct upsampling (DirectU)、MFSU、learnable multiscale fusion upsampling (LMFU)、MSPU、LPUS

与先进的遥感图像分割方法的比较:以Vaihingen数据集为例:

Conclusion

       论文总结:针对Transformer和CNN结合进行特征提取会导致特征不一致 RS分割既需要全局语义信息又需要局部细节信息的问题,论文提出了一种新的GLOTS算法。GLOTS使用MIM预训练的Transformer编码器来获取丰富的语义信息,使用全局-局部Transformer解码器来解码粗粒度和细粒度特征。GLOTS解码器的关键组成部分,包括FSAM和GLAM,在充足的消融研究的实验中被证明是有效的。此外,GLOTS的整个框架在LoveDA和ISPRS数据集上通过定量和定性评估被证明优于最先进的方法。

       未来方向:未来可以考虑设计更高效的基于Transformer的RS分割方法,如稀疏连接的完全全局注意力Transformer,以及提高基于Transformer的RS分割方法在标签不足场景下的性能等方面做出更多的尝试(弱监督与半监督等)。

  • 25
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值