论文信息概括
自监督学习作为大模型的基础性技术,已在遥感影像理解领域取得了里程碑式的进展。作为自监督学习的标志性方法,对比学习通过设计一个无监督实例判别的前置任务,实现了从大量无标签影像数据中提取有利于下游任务特征的目标。然而,现有的自监督对比学习方法在应用于遥感影像语义分割任务时依然存在正样本混淆问题和特征适配偏置。如下图所示:
针对上述局限性,这篇发表在IEEE Transactions on Geoscience and Remote Sensing上的文章考虑无监督地构建包含更单一地物类型的样本用于对比学习,以缓解正样本混淆问题和特征适配偏见。而基于“判别信息可以通过对比损失的梯度映射到遥感影像中的特定区域,这些特定区域往往包含更单一地物”的观察,该文提出了基于梯度引导采样策略的对比学习遥感影像语义分割方法GraSS。三个公开遥感影像数据集上的实验结果表明,相比6种不同类型的8个先进自监督对比学习方法,GraSS在三个指标(OA, mAcc和mIoU)上都取得了最佳性能。此外,该研究工作也表明无监督对比损失梯度包含丰富的特征信息,这有望激励后续研究在模型训练中更广泛地利用梯度信息来获得额外的模型能力。 代码已在 github.com/GeoX-Lab/GraSS开源。
方法介绍
受深度网络影像分类器在区分不同影像实例时往往依赖实例的一个主要区域,而忽略其他区域的信息这一事实的启发: 论文期望在前置的实例判别任务中获得自监督对比学习模型所关注的语义一致性区域,并使用获得的语义一致性区域构建正负样本,达到构建包含更单一类型地物样本的目标。为了实现这一目标,GraSS设计了实例判别热身(Instance Discrimination Warm Up) 和梯度引导采样对比训练(Gradient Guided Sampling Contrastive Training) 两个阶段,如下图所示:
其中,实例判别热身旨在赋予对比损失梯度初始的判别信息。梯度引导采样对比训练旨在利用对比损失梯度中包含的判别信息,自适应地选择遥感影像中包含更单一地物的区域,构建新的正负样本。
1)实例判别热身训练
实例判别热身阶段的正负样本和对比信号构建遵循标准的对比学习范式:对于增广得到的影像样本,我们将其输入到编码器特征提取网络E(·)中,得到高维特征F,再输入到特征投影头P(·)后得到低维特征f计算对比损失L。对于单个迭代过程,L可由下式计算得到:
L
=
1
N
⋅
K
∑
i
=
1
N
∑
j
=
1
K
l
i
j
L=\frac{1}{N \cdot K} \sum^{N}_{i=1} \sum^{K}_{j=1} l_{ij}
L=N⋅K1i=1∑Nj=1∑Klij
其中,
l
i
j
=
−
l
o
g
(
∑
n
=
1
,
n
≠
j
K
e
x
p
(
s
i
m
(
f
i
j
,
f
i
n
)
/
τ
)
∑
m
=
1
,
m
≠
i
N
∑
n
=
1
K
e
x
p
(
s
i
m
(
f
i
j
,
f
m
n
)
/
τ
)
)
l_{ij}= -log(\frac{\sum_{n=1,n\neq j}^{K}{exp(sim(\boldsymbol{f}_{ij},\boldsymbol{f}_{in})/\tau)}}{\sum_{m=1,m\neq i}^{N}\sum_{n=1}^{K}{exp(sim(\boldsymbol{f}_{ij},\boldsymbol{f}_{mn})/\tau)}})
lij=−log(∑m=1,m=iN∑n=1Kexp(sim(fij,fmn)/τ)∑n=1,n=jKexp(sim(fij,fin)/τ))为信息-噪声对比损失函数。
2)梯度引导采样对比训练阶段
梯度引导采样对比训练阶段主要包括正负样本实例构建、判别注意力区域(Discrimination Attention Region,DAR)获取、重建样本和对比损失计算。为了得到DAR,我们首先将对比损失反向传播至特征层,得到对比损失注意力图(contrastive Loss Attention Map, LAM)。单个影像样本的LAM可由下式得到:
L
A
M
=
R
e
s
i
z
e
H
=
h
,
W
=
w
(
M
)
LAM = \underset{H=h,W=w}{Resize}(M)
LAM=H=h,W=wResize(M)
其中,梯度由
∂
L
∂
F
i
j
=
∂
L
∂
l
i
j
∂
l
i
j
∂
f
i
j
∂
f
i
j
∂
F
i
j
\frac{\partial L}{\partial \boldsymbol{F}_{ij}} = \frac{\partial L}{\partial l_{ij}} \frac{\partial l_{ij}}{\partial \boldsymbol{f}_{ij}} \frac{\partial \boldsymbol{f}_{ij}}{\partial \boldsymbol{F}_{ij}}
∂Fij∂L=∂lij∂L∂fij∂lij∂Fij∂fij计算得到,激活图M由
1
D
∑
d
=
1
D
p
o
o
l
i
n
g
(
∂
L
∂
F
i
j
)
F
i
j
d
\frac{1}{D} \sum^{D}_{d=1} pooling(\frac{\partial L}{\partial \boldsymbol{F}_{ij}})\boldsymbol{F}^{d}_{ij}
D1∑d=1Dpooling(∂Fij∂L)Fijd计算得到。
最后,论文在LAM的基础上获取DAR。具体而言,论文定义了判别注意力区域获取函数G(LAM;T_A),其中T_A为选择DAR的激活阈值。该函数将LAM中数值高于T_A的区域作为候选判别注意力区域R,之后计算所有候选判别注意力区域R的最大激活值,将最大激活值最高的候选区域作为DAR。这一过程可以被描述为:
D
A
R
=
G
(
L
A
M
;
T
A
=
t
)
DAR = G(LAM; T_{A} = t)
DAR=G(LAM;TA=t)
该式应满足:
R
=
{
R
i
}
=
(
L
A
M
>
t
)
R = \{R_{i}\} = (LAM > t)
R={Ri}=(LAM>t)和
m
a
x
(
D
A
R
)
=
m
a
x
(
m
a
x
(
R
i
)
)
max(DAR) = max(max(R_{i}))
max(DAR)=max(max(Ri))两个条件。
最后,在得到DAR后,论文首先获取DAR与原始图像样本对应的最小外矩形的中心坐标(x, y)、宽度w和高度h。然后根据坐标裁剪对应的RSI区域,并将其调整为原始图像大小,以获得新的样本,该论文把基于DAR的图像裁剪操作称为DACrop。DACrop的定义如下:
x
~
i
j
′
=
D
A
C
r
o
p
X
=
x
,
Y
=
y
,
H
=
h
,
W
=
w
(
x
~
i
j
)
\tilde{x}_{ij}^{'} = \underset{X=x, Y=y, H=h,W=w}{DACrop}(\tilde{x}_{ij})
x~ij′=X=x,Y=y,H=h,W=wDACrop(x~ij)
其中, x , y , h , w = B o x ( D A R i j ) x, y, h, w = Box(DAR_{ij}) x,y,h,w=Box(DARij)
3)方法伪代码
开源地址
实验结果介绍
论文提出的GraSS与6种类型共8个自监督对比学习基线方法进行了对比,给出了定量和定性的分析结果。为了探索梯度引导采样策略的适用性,与上述在预训练阶段只训练特征提取器的8种基线方法不同,论文还与在预训练阶段需要指定影像语义分割解码器的GLCNet 进行了比较。
可视化分析
论文还探讨了实例判别热身周期对LAM的影响,将不同实例判别热身周期得到的LAM进行了可视化,实验结果表明,随着实例判别热身训练的进行,所得到的LAM高激活值逐渐集中在遥感影像中包含更单一地物类型的区域。
对遥感影像包含地物对LAM的可视化实验结果则表明,LAM中激活值较高的区域往往集中在同一批次中数量相对较多的地物上。例如下图的第1行,当同批次的其他影像包含大量草或低植被时,LAM中激活值较高的区域也集中在锚样本的草或低矮植被区域。
论文结论
该文提出了基于梯度引导采样策略的对比学习遥感影像语义分割方法。利用自监督对比损失梯度中包含的正负样本判别信息构建包含更单一地物的样本,缓解自监督对比学习在进行遥感影像语义分割时的样本混淆问题,减轻实例级的前置任务和像素级的遥感影像语义分割任务之间的特征适配偏见。实验表明,GraSS有效提高了遥感影像语义分割任务的自监督对比学习模型的性能,并优于目前六种类型共八个先进的自监督对比学习方法。在此基础上,论文对提出的GraSS进行了大量的实验和探讨,初步讨论了实例判别周期和遥感影像中包含的具体地物对对比损失梯度的影响,以期加深我们对自监督对比学习模型的理解。
虽然目前的梯度引导采样策略有效地缓解了遥感影像语义分割任务中自监督对比学习的正样本混淆问题,但由于自监督对比学习本质上是无监督的,论文提出的GraSS不能绝对保证获得的样本只包含单一类型的地物。此外,论文发现对比损失梯度包含丰富的特征信息,这激励后续研究在模型训练过程中更多地利用梯度信息来获得额外的模型能力。未来,该研究将进一步探索对比损失梯度与遥感影像时空特性之间的关系,为设计更有效捕获遥感影像特征的自监督对比学习模型提供指导。
概念解释
- 正样本混淆问题: 自监督对比学习将同一影像的不同增广视为正样本,并将其拉近。但由于遥感影像包含多种地物,对于需要获取地物特征的语义分割任务而言,模型在拉近正样本的过程中实际上拉近了多种地物,致使模型混淆了不同地物的特征。
- 特征适配偏置: 自监督对比学习在进行实例判别前置任务时,将一整张影像作为实例进行判别,得到的是实例级的特征,不能完全适配需要像素级或对象级特征的语义分割任务。