遥感图像语义分割论文（3）：EMRT---Enhancing Multiscale Representations With Transformer for RS Image Segmentation

最新推荐文章于 2024-06-03 22:26:49 发布

暴躁小气包（上进版）

最新推荐文章于 2024-06-03 22:26:49 发布

阅读量1.3k

点赞数 37

分类专栏：遥感图像语义分割文章标签： transformer 深度学习计算机视觉 paddlepaddle 图像处理神经网络

本文链接：https://blog.csdn.net/weixin_47973534/article/details/137006584

版权

遥感图像语义分割专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文是对TGRS 2023有关遥感图像语义分割论文的总结，如有侵权即刻删除！

遥感图像语义分割论文精读总结：EMRT---Enhancing Multiscale Representations With Transformer for RS Image Segmentation

Paper：<<Enhancing Multiscale Representations With Transformer for Remote Sensing Image Semantic Segmentation>>

Code：https://github.com/peach-xiao/EMRT（本人大致已跑通）

为了利用卷积操作和Transformer的优势来增强多尺度表示学习，论文提出了一种用于HRRS图像分割的新的混合架构，命名为EMRT (Enhance Multiscale Representations with Transformer)，其提供一种有效的方案弥补了现有混合结构存在的①Transformer带来的计算量过大，训练模型需要更多的内存空间和计算资源；② 在Transformer中没有利用多尺度信息的问题。

Introduction

与自然图像相比，HRRS（高分辨率遥感图像）图像包含复杂的空间布局和多种类型的物体，不同场景中的同一类物体具有不一致的类别分布，在形状和外观上差异较大。地物的多尺度和相对复杂的纹理信息的存在，往往导致高的类间相似性和类内多样性，难以准确地分离出这些地物的边界。此外，高分辨率为背景样本提供了更精细的细节和更大的类内方差，需要提取更具判别性的语义特征才能实现较为精确的分割。

①卷积核有限的感受野导致CNN无法学习全局语义信息；②Transformer中由于多传感头注意力模块对所有像素初始化权重几乎相同，因此需要较长的训练时间才能学习到有意义的位置，且高昂的计算成本对其处理高分辨率特征图造成了严重的阻碍。③尽管一些混合结构取得了较好的性能，但仍然存在一些问题：a. Transformer带来的计算量过大问题没有得到解决，训练模型需要更多的内存空间和计算资源；b. 在Transformer中没有利用多尺度信息。

基于上述分析，论文提出了一种用于HRRS图像语义分割的双路径网络结构：EMRT（Enhance Multiscale Representations with Transformer），其旨在有效地结合基于CNN的局部特征和基于Transformer的全局表示。作者认为单个像素与周围区域的相关性对像素的类别预测有很大的帮助，而冗余区域会引入过多的无关信息(例如,阴影覆盖和分支遮挡)，从而导致边界预测不准确，故其在Transformer中引入了可变形的自注意力机制（the deformable self-attention mechanism），该机制只关注参考点周围的少量关键采样点，大大降低了时间和内存复杂度，从而使得Transformer具有在多个尺度上处理高分辨率特征图并保留更丰富的物体细节的潜力。此外，论文中设计了一个空间分支从全局层面提取特征，并使用多尺度池化模块获取多尺度上下文信息作为Transformer解码器的query，使得搜索远距离特征和更准确地捕获多尺度目标成为可能。

Method

Overall Network Architecture

如下图所示，EMRT采用编码器-解码器结构。

编码器由Transformer和CNN并行组成，以交互的方式融合不同分辨率下的局部特征和全局表示，具体来讲，一方面使用预训练权重的ResNet-50作为特征提取器，选择后3个阶段的高层特征图输出首先通过1×1卷积层进行调整（减少通道数），之后将其展平并拼接成一个长的一维序列作为Transformer编码器的输入；另一方面采用一个卷积模块，经过一系列卷积操作之后得到另一个长序列，将上述两者通过加法运算合并在一起得到最终的编码特征。

解码器：空间分支（Spatial Branch）通过卷积和下采样操作逐步提取高分辨率的低层特征，从而保留精细的空间信息，其多尺度特征信息通过具有不同池化尺寸的空间金字塔模块提取，作为Transformer解码器的输入，并在经过解码器模块后，对其进行重塑和上采样，以获得增强的多尺度表示集合。编码器输出的特征表示通过自顶向下的路径逐渐融合（EFP），以细化空间细节，然后在通道上与来自解码器的多尺度特征进行级联，以优化特征表示。

最后，通过1×1卷积在通道维度上调整多尺度特征图，并通过双线性上采样方法将多尺度特征图调整到原始图像的大小。

Transformer Encoder

Transformer编码器由Transformer和卷积模块并行组成。给定输入图像 $X\in R^{H\times W\times C}$ ，①由Resnet50主干网络产生不同大小的特征图，考虑到Transformer处理的是序列信息，使用1×1的卷积层将所有特征图调整到相同的通道维度，然后将其扁平化并拼接成长序列作为Encoder输入。（此部分参见上文模型整体架构CNN Backbone）与普通Transformer不同之处在于，此处引入可变形的自注意力机制（有关其具体原理可以参考https://blog.csdn.net/amusi1994/article/details/124958410）。②在卷积模块中，首先将输入的长序列重塑为原始大小的多个特征图，之后通过CNN提取局部特征，提取后的特征图借助拉平和级联操作转换为与输入序列具有相同维度的序列（卷积模块包含一个3×3的卷积层，之后是组归一化(GN)和GELU激活函数，使用残差连接来避免梯度消失）。③由于编码器以多个特征图生成的序列作为输入，卷积模块相互独立于每个特征图，使得其可以同时学习多个尺度的局部表示，最后，通过加法运算将Transformer和卷积模块输出的特征融合在一起作为编码后的特征。

Transformer Decoder

引入空间分支生成多尺度上下文作为解码器的输入，具体设计了一个用于提取局部特征表示的3层网络，其中每层包含一个步幅为2的卷积，然后进行批归一化和ReLU，最终输出特征图的分辨率为原始图像的 $\frac{1}{8}$ ，除此之外，利用多个不同大小的(1、3、6、8)池化层来生成多尺度上下文信息，并将其中的每个池化层进行扁平化和级联来生成序列作为解码器的输入（此部分参见上文模型整体架构Spatial Branch）。将MSA模块输出的特征作为query，编码器的输出作为value，通过MDSA模块来增强多尺度上下文信息。最后，将更新后的多尺度上下文调整为每个池化尺度的大小，然后上采样到原始图像的 $\frac{1}{8}$ ，并串联作为输出。

Final feature map

论文考虑到Transformer编码器阶段输出的特征对分割结果也是有帮助的，且CNN和Transformer的特征维度不同，其之间存在明显的语义gap，故设计了编码器特征金字塔(EFP)模块来融合多尺度特征，并以自上向下的方式填补语义gap。

如上图所示，编码器的输出序列首先根据每个尺度的大小重新塑造成特征图，这些特征图具有相同的通道数，故不需要额外的操作即可完成空间维度对齐。每个特征图通过3×3卷积和残差级联对特征进行细化，并使用BatchNorm模块对特征进行归一化处理。然后，在使用双线性上采样操作匹配特征维度后，使用加法操作合并更高分辨率的特征图。

编码器和解码器生成的所有特征以及空间分支被级联以保留更多的低层细节，然后使用带有BatchNorm和ReLU的卷积层进行降维。因此，可以得到具有多尺度语义信息的特征图，对其进行上采样，从而得到最终的预测结果（此部分参见上文模型整体架构最右侧）。

Experiment

Dataset：Potsdam 、 Vaihingen、LoveDA

Basic settings

① CNN与部分Transformer的Backbone比较：在CNN的基础上使用Transformer可以更好地提取局部和全局信息，从而显著提高分割性能。考虑到模型复杂度和硬件资源，选择ResNet-50作为后续实验的Backbone。

② 输入图像大小的影响：224、256、384、448、512

Ablation Studies

① 各组成部件的作用：EFP、spatial branch、Encoder部分的CNN分支

② 位置嵌入的影响：Transformer encoder：positional embedding（PE）和 scale embedding（SE）；Transformer decoder：positional embedding（PE）

③ 注意力机制的影响：MDSA、MSA

④ 池化尺寸的影响：(1, 2, 3, 6)、(1, 2, 4, 8)、（1, 3, 6, 8）、(1, 4, 8, 12)

⑤ 采样点数量：4，6，8，12

⑥ Transformer Encoder和Decoder层数

Comparison With Some State-of-the-Art Methods

以Potsdam数据集为例：

Complexity Analysis

通过最少的参数和相对较低的FLOP证明，论文方法取得了较好的分割结果，并且在很大程度上节省了内存资源，显示了其较高的计算效率。

Conclusion

论文提出了一种用于HRRS图像的语义分割的基于CNN和Transformer的混合模型EMRT，其使用可变形的自注意力机制来减少计算资源，并在多尺度和高分辨率的特征图上实现长程依赖建模。EMRT的主体部分是基于Transformer的编码器-解码器结构。编码器旨在充分利用CNN提取局部特征和Transformer捕获全局表示的优势来增强特征表示，解码器通过池化模块获取多尺度上下文信息作为query，以更准确地捕获多尺度目标。另外充足的实验证明所提模型的有效性。

暴躁小气包（上进版）

关注

37
点赞
踩
36

收藏

觉得还不错? 一键收藏
3
评论
遥感图像语义分割论文（3）：EMRT---Enhancing Multiscale Representations With Transformer for RS Image Segmentation

为了利用卷积操作和Transformer的优势来增强多尺度表示学习，论文提出了一种用于HRRS图像分割的新的混合架构，命名为EMRT (Enhance Multiscale Representations with Transformer)，其提供一种有效的方案弥补了现有混合结构存在的①Transformer带来的计算量过大，训练模型需要更多的内存空间和计算资源；② 在Transformer中没有利用多尺度信息的问题。
复制链接

扫一扫