本文是对《SRCBTFusion-Net: An efficient Fusion Architecture via Stacked Residual Convolution Blocks and Transformer for Remote Sensing Image Semantic Segmentation》一文的总结,如有侵权即刻删除。
项目代码:https://github.com/js257/SRCBTFusion-Net
文章目录
Title
《SRCBTFusion-Net: An efficient Fusion Architecture via Stacked Residual Convolution Blocks and Transformer for Remote Sensing Image Semantic Segmentation》
——IEEE Transactions on Geoscience and Remote Sensing (TGRS) 2023
Author: Junsong Chen
总结
本文提出一种混合Transformer和堆叠残差卷积块的模型SRCBTFusion-Net用于遥感图像语义分割。提供一种有效的方案弥补了现有模型分割不同地物边缘模糊,分割混淆和小尺度地物分割效果差的问题。
该模型包括4个模块。(1)SIEM: 提取全局线索来指导解码器。(2)RGM: 减少细节信息的丢失,增强边缘特征和非边缘像素特征的区分度。(3)MASM:降低融合低级特征和高级特征的跳过连接引入的混淆信息。(4)MFAM: 融合多尺度特征,以增强语义和上下文信息的提取,提高相似类别的鉴别能力。其包含的DCM作用是弥补上采样过程的细节信息损失。
1. 贡献
- 提出了语义信息增强模块(SIEM)从通道和空间层面提取全局线索来指导解码器,再结合关系引导模块(RGM)模块减少细节信息的丢失,增强边缘特征和非边缘像素特征的区分度。
- 提出多路视野自注意力模块(MASM)结合堆叠空洞卷积块和改进的自注意力结构加强对低级特征进行有效的筛选和加权,提高对于局部细节和全局语义的把握,有效降低融合低级特征和高级特征的跳过连接可能引入的混淆信息。
- 受多尺度特征融合的启发,提出多尺度特征聚合模块(MFAM)提取多尺度特征,以增强语义和上下文信息的提取,缓解了信息的丢失,提高了相似类别的鉴别能力。为了弥补上采样过程的细节信息损失,在MFAM中提出细节补偿模块(DCM)模块提取通道相关信息,提高模型更细粒度的特征表示的能力,显著提高了分割性能。
- 提出的网络在两个数据集上取得最好的分割精度,并且通过大量的可视化分析证明我们提出网络的优越性。
2. 模型设计
2.1 语义信息增强模块与关系引导模块
这两个模块探索一种新方案,利用CNN比Transformer在位置定位方面的优势(平移不变性),设计SIEM利用从CNN深层获取的特征从通道和空间层面提取全局线索来指导解码器,再利用设计的RGM对编码器支路和解码器支路重新编码,得到信息增强的特征,提高对边缘像素的分割能力,原理如算法1。


2.2 多路视野自注意力模块
如下图所示,为了解决融合低级特征和高级特征的直接跳过连接可能引入的混淆信息,通过对低级特征进行有效的筛选和加权,以确保其贡献更有针对性,期望提高模型对局部细节的捕捉能力,提出MASM模块。设计一种堆叠空洞卷积块,旨在增强网络对更广阔上下文信息的感知,通过对不同层级特征的关注程度进行动态调整,模型可以更灵活地捕捉不同语义层次的信息,有针对性地加强对低级语义的学习。该模块的公式描述如下:
F
n
=
{
S
n
(
B
O
d
,
θ
n
)
,
n
=
1
S
n
(
B
O
d
⊕
F
1
,
θ
n
)
,
n
=
2
,
3
(1)
F_n= \begin{cases}S_n\left(B O_d, \theta_n\right), & n=1 \\ S_n\left(B O_d \oplus F_1, \theta_n\right), & n=2,3\end{cases} \tag{1}
Fn={Sn(BOd,θn),Sn(BOd⊕F1,θn),n=1n=2,3(1)
该模块将第一层的输出特征依次与第二层和第三层特征相加,能够更大范围地捕捉图像信息,有助于处理更大尺度的语义结构。
另外,为了应对弱语义信息的引入,设计一种自注意机制,通过这种方式,在保留低级特征的同时,能够更精准地选择和整合低级特征,从而减少混淆信息的引入。这个注意力模块在自注意力的基础上进行改进,使得网络能够动态地调整特征映射中不同位置的重要性,有助于提高对于局部细节和全局语义的把握。与自注意力对结构中的Query(Q)、Key(K)和Value(V)初始化方式不同。它将输入通过一个核大小为3的卷积得到张量 ,再利用自适应平均池化得到Query在垂直空间方向上的统计。而获得的K则是通过自适应平均池化得到在水平空间方向上的统计。公式如下:
M
h
=
1
W
m
∑
j
=
0
W
m
−
1
N
^
d
(
i
,
j
)
(2)
M_h=\frac{1}{W_m} \sum_{j=0}^{W_m-1} \hat{N}_d(i, j) \tag{2}
Mh=Wm1j=0∑Wm−1N^d(i,j)(2)
M
w
=
1
H
m
∑
i
=
0
H
m
−
1
B
O
d
(
i
,
j
)
(3)
M_w=\frac{1}{H_m} \sum_{i=0}^{H_m-1} B O_d(i, j) \tag{3}
Mw=Hm1i=0∑Hm−1BOd(i,j)(3)
Q
=
M
L
P
(
M
h
)
(4)
Q=M L P\left(M_h\right) \tag{4}
Q=MLP(Mh)(4)
K
=
M
L
P
(
M
w
)
(5)
K=M L P\left(M_w\right) \tag{5}
K=MLP(Mw)(5)
T
U
i
=
1
H
m
×
W
m
∑
x
=
1
H
m
∑
y
=
1
W
m
P
(
x
,
y
)
(6)
T_{U_i}=\frac{1}{H_m \times W_m} \sum_{x=1}^{H_m} \sum_{y=1}^{W_m} P(x, y) \tag{6}
TUi=Hm×Wm1x=1∑Hmy=1∑WmP(x,y)(6)
P
V
i
=
i
n
t
e
r
p
o
l
a
t
e
(
ρ
(
B
N
(
C
o
n
v
1
×
1
(
T
U
i
)
)
)
)
(7)
PV_{i}=interpolate(\rho(BN(Conv_{1\times 1}(T_{U_{i}})))) \tag{7}
PVi=interpolate(ρ(BN(Conv1×1(TUi))))(7)
V
=
C
o
n
v
1
×
1
(
C
a
t
(
P
V
i
)
)
(8)
V=Conv_{1\times 1}(Cat(PV_{i})) \tag{8}
V=Conv1×1(Cat(PVi))(8)
以上操作到这里就完成对Q、K和V的初始化。之后利用如下的公式联合Q、K、V得到注意力图。
A
T
=
Softmax
(
Q
K
d
head
)
V
(9)
A T=\operatorname{Softmax}\left(\frac{Q K}{\sqrt{d_{\text {head }}}}\right) V \tag{9}
AT=Softmax(dhead QK)V(9)
最后通过拼接操作融合三层特征得到该模块的最终输出。
2.3 多尺度特征聚合模块
为了进一步缩小由于堆叠的残差卷积块编码器与解码器融合的局部信息和全局信息在空间和语义信息上的差距,另一方面,为了缓解解码器连续上采样过程中细节信息的丢失。提出了一种新的多尺度特征的融合结构,名为MFAM。该模块原理如公式3。
该模块从解码器的最低层开始,执行三次逐级上采样操作,并在每次上采样之后利用卷积进行平滑过渡,最终得到特征图的通道数为128,尺寸大小为原始图像分辨率的1/4的特征图。此外,为了弥补上采样过程的细节信息损失和进一步提高相似地物的分割能力,设计了一个细节补偿模块(DCM)添加到MFAM三条横向支路。最后,将上采样到相同尺度和通道数的三条支路通过拼接策略融合,再通过
1
×
1
1\times 1
1×1卷积和2倍上采样到原始图像大小以生成每类像素的预测标签。
3. 实验结果
3.1 消融
从下表的实验结果知道,除了做设计模块的消融实验,还与目前最流行行的模块进行对比。提出的模型加入MFAM和用FPN替换MAFM的模型具有相同的参数量2.29M,但前者比后者在MIoU和Ave.F1上分别提高0.41%和0.25%。可视化结果如下图,在第一行和第三行,加入MFAM的模型清晰的将小块的“Background”完整分割。另外,在第二行中,小尺寸的“Car”虽然被“Tree”遮盖了一部分,但仍然能够精确的分割出语义区域。这表明MFAM的结构设计优于FPN,并且有利于提高小尺度目标的分割精度。
此外,MASM与ASPP相比,ASPP具有获取广阔感受野的优势,对于细节信息补偿和小目标的检测尤为突出,然而,场景复杂性限制ASPP在分割领域的应用以及本文需要对低级特征处理已实现与高级特征融合,如下表中测试ASPP代替MASM的结果,参数量增加0.61M,而MIoU和Ave.F1分别降低0.36%和0.30%。从可视化结果看,第一行和第二行中,添加MASM的网络捕捉小范围的区域更有优势,第三行中,对整目标区域的完整性识别也更好。通过以上实验分析证明提出的方法优于ASPP。


3.2 与最新方法比较
比较的方法中包括基于纯CNN的方法ABCNet (基于Resnet50)和Deeplabv3+(基于Resnet50),以及基于Transformer的方法TransUNet、Swin-Unet、UNetformer 和Segformer。ransUNet设计类似于UNet结构,采用resnet50的前四层和Transformer级联作为双编码器,再结合上采样和跳跃连接融合的方式构成解码器。Swin-Unet设计纯Transformer的Unet结构的模型。UNetformer采用Unet结构,其中Resnet50作为编码器,采用三个Transformer堆叠块和一个CNN特征细化头作为解码器。Segformer采用Transformer作为编码器提取多尺度特征送入全MLP解码器进行分割。
实验在Potsdam和Vaihingen数据集上比较。在Potsdam数据集上,提出的SRCBTFusion-Net取得了最好的分割效果,MIoU和Ave.F1分别为78.62%和87.98%。在Vaihingen数据集上同样做了与最新网络的实验结果比较。提出的模型同样实现了最好的分割结果,MIoU和Ave.F1分别为76.27%和86.26%。比最好的方法Segformer提高了1.04%和0.71%。远远优于纯CNN架构网络、纯Transformet网络和最新混合架构的网络。此外,也可视化了几种最新模型的结果,逐一分析了各个网络设计的缺陷和他们设计的模块的优势,证明设计的结构的合理性。
4. 论文的结论
总结:一方面,为了探索融合Transformer和CNN的混合架构对于提升分割性能的影响。另一方面,目前遥感图像分割领域存在边界分割模糊和缺乏获取足够上下文信息的能力。提出采用Transformer和CNN结合的双编码网络SRCBTFusion-Net。具体来说,提出SIEM和RGM增强深层语义信息来提高边缘特征和非边缘像素特征的区分度,通过消融实验我们证明了提出方法有利于改善边缘区域的平滑度和提高不同语义区域的判别能力。提出MASM模块更精准地选择和整合低级特征,从而减少混淆信息的引入,进一步提高了分割精度。此外,提出MFAM融合多尺度特征,增强语义和上下文信息的提取,缓解了图像特征信息的丢失,提高了相似类别的鉴别能力。通过实验证明,MFAM比FPN的优势在于能更好的分割出被遮挡和图片边缘的语义区域。
未来方向:虽然提出的方法在分割效果上有很大的优势,但在参数量、运算速度和分割精度之间不能很好的权衡。具体分析,一方面是级联的Transformer在带来分割性能提升的同时,参数量也大量增加。另一方面,在MFAM中我们采用了稠密连接的卷积块,这在一定程度上降低了模型的运算速度。针对以上问题,将重点对Transformer的结构进行改进。此外,目前的方法很难对场景中混杂的狭小的区域分割,未来,将借鉴道路裂缝分割方向的方法应用到遥感图像分割中以进一步优化分割效果。
🤞🤞🤞
创作不易,请伸出您发财的小手,打赏下博主,谢谢。
🤞🤞🤞