全文翻译如下:
摘要
基于卷积神经网络的方法在语义分割方面取得了显著的进展。然而,这些方法严重依赖于人工标注的数据。为了应对这一限制,从图形引擎生成的自动标注数据被用来训练分割模型。然而,从合成数据中训练的模型很难迁移到真实图像中。为了解决这个问题,先前的工作已经考虑将模型从源数据直接适应到未标记的目标数据(以减小域间间隙)。尽管如此,这些技术并没有考虑目标数据本身之间较大的分布差距(域内差距)。在这项工作中,我们提出了一种两步自监督域适应方法,以最小化域间和域内的差距。首先,我们对模型进行域间自适应,从这个自适应中,我们使用基于熵的排序函数将目标域分离为简单和困难的分割。最后,为了减小域内间隙,我们提出了一种从易到难子域的自监督自适应技术。在大量基准数据集上的实验结果表明了我们的方法相对于现有先进方法的有效性。源代码为https://github.com/ feipan664/IntraDA.git。
1. Introduction
语义分割旨在将图像中的每个像素分配到一个语义类中。近年来,基于卷积神经网络的分割模型[ 13、33]取得了令人瞩目的进展,在计算机视觉系统中得到了广泛的应用,如自动驾驶[ 14、31]、机器人[ 15、23]、疾病诊断[ 35、32]等。训练这样的分割网络需要大量的标注数据。然而,收集具有像素级标注的大规模数据集进行语义分割是困难的,因为它们昂贵且耗费人力。最近,从模拟器和游戏引擎[ 19、20]渲染的具有精确像素级语义标注的真实感数据被用于训练分割网络。然而,由合成数据训练的模型由于跨域差异难以迁移到真实数据中[ 11 ]。为了解决这个问题,人们提出了无监督域适应( UDA )技术来对齐有标记源数据和无标记目标数据之间的分布偏移。对于特定的语义分割任务,基于对抗学习的UDA方法在图像[ 16、11]或输出[ 26、25]级别的特征对齐上表现出效率。最近,文献[ 28 ]提出的像素级输出预测的熵也被用于输出级对齐。其他方法[ 38、37]涉及为目标数据生成伪标签,并通过迭代自训练过程进行精化。虽然许多模型考虑了单源单目标的自适应设置,但最近的工作[ 18、34]提出了解决多源域的问题;重点研究了多源单目标自适应设置。综上所述,以往的工作大多考虑将模型从源数据适配到目标数据(域间间隙)。
然而,从现实世界收集的目标数据具有多样化的场景分布;这些分布是由移动物体、天气状况等各种因素造成的,从而导致目标存在较大的间隙(域内间隙)。例如,图1所示的目标域中的噪声图和干净图是同一模型在不同图像上做出的预测。以往的研究只关注减少域间鸿沟,对域内鸿沟问题的关注度相对较低。在本文中,我们提出了一种两步域适应方法来最小化域间和域内间隙。该模型由3个部分组成,如图2所示,分别是:1 )域间适应模块,用于缩小有标签源数据和无标签目标数据之间的域间差距;2 )基于熵的排序系统,用于将目标数据划分为简单和硬划分;3 )域内适应模块,用于缩小简单和硬划分(使用来自容易子域的伪标签)之间的域内差距。对于语义分割,我们提出的方法在基准数据集上取得了较好的性能。此外,我们的方法优于以前的域适应方法用于数字分类。
我们工作的贡献。首先,我们引入了目标数据之间的域间差距,并提出了一种基于熵的排序函数,将目标域分离成一个容易和困难的子域。其次,我们提出了一种两步自监督域适应方法,以同时最小化域间和域内差距。
图1:我们提出了一种用于语义分割的两步自监督域适应技术。以往的工作只是将分割模型从源域适应到目标域。我们的工作还考虑了从干净地图适应到目标域内的噪声地图。
2. Related Works
无监督域适应。无监督域适应的目标是对齐有标记源和无标记目标数据之间的分布偏移。最近,基于对抗的UDA方法在学习领域不变特征方面表现出了强大的能力,即使对于语义分割[ 28、4、26、25、21、11、17]这样的复杂任务也是如此。基于对抗的UDA语义分割模型通常涉及两个网络。一个网络被用作生成器来预测输入图像的分割图,这些分割图可以来自源或目标。给定生成器的特征,第二个网络作为判别器来预测域标签。生成器试图欺骗判别器,从而对齐来自两个域的特征的分布偏移。除特征级对齐外,其他方法尝试在图像级或输出级对齐域偏移。在图像层面,CycleGAN [ 36 ]在文献[ 11 ]中被应用来构建用于域对齐的生成图像。在输出层面,文献[ 25 ]提出了一种包含结构输出对齐的端到端模型用于分布偏移。最近,[ 28 ]利用来自分割输出的像素级预测的熵来解决领域鸿沟。虽然以前的所有研究都只考虑调整域间间隙,但我们的方法进一步最小化域内间隙。因此,我们的技术可以与大多数现有的UDA方法相结合,以获得额外的性能增益。
熵的不确定性。不确定性度量与无监督领域适应有很强的联系。例如,文献[ 28 ]提出直接最小化模型输出的目标熵值或使用对抗学习[ 25、11]来弥合语义分割的领域间隙。模型输出的熵[ 29 ]也被用作跨域传递样本的置信度[ 24 ]。我们提出利用熵对目标图像进行排序,将其分离为两个简单且困难的分割。
课程域适应。我们的工作也与课程域适应[ 22、31、7]相关,它首先处理简单样本。针对有雾场景理解的课程域自适应问题[ 22 ],提出一种从无雾图像到合成轻雾图像,再到真实重雾图像的语义分割模型。为了推广这一概念,文献[ 7 ]通过引入无标签的中间域,将域差异分解为多个较小的差异。然而,这些技术需要额外的信息来分解域。为了应对这一限制,文献[ 31 ]将学习图像的全局和局部标签分布作为第一项任务来正则化目标域中的模型预测。相比之下,我们提出了一种更简单和数据驱动的方法来学习基于熵排序系统的简单目标样本。
图2:提出的自监督域适应模型包含域间生成器和判别器 { G inter , D inter } \left\{G_{\text {inter }}, D_{\text {inter }}\right\} {Ginter ,Dinter }和域内生成器和判别器 { G intra , D intra } \left\{G_{\text {intra }}, D_{\text {intra }}\right\} {Gintra ,Dintra }。该模型由三部分组成,即( a )域间自适应,( b )基于熵的排序系统,( c )域内自适应。在( a )中,给定源数据和未标记的目标数据,训练 D inter D_{\text {inter }} Dinter 预测样本的领域标签,训练 G inter G_{\text {inter }} Ginter 欺骗 D inter D_{\text {inter }} Dinter 。通过最小化分割损失 L inter s e g \mathcal{L}_{\text {inter }}^{s e g} Linter seg和对抗损失 L inter. a d v \mathcal{L}_{\text {inter. }}^{a d v} Linter. adv.来优化 { G inter , D inter } \left\{G_{\text {inter }}, D_{\text {inter }}\right\} {Ginter ,Dinter }。在( b )中,使用基于熵的函数 R ( I l ) R\left(I_{l}\right) R(Il)将所有目标数据分离为易拆分和难拆分。引入超参数 λ \lambda λ作为分配到易分割目标图像的比例。在( c )中,域内自适应被用来缩小易分裂和难分裂之间的差距。来自 G inter G_{\text {inter }} Ginter 的易分割数据的分割预测作为伪标签。给定带有伪标签的易分裂数据和硬分裂数据, D intra D_{\text {intra }} Dintra 用于预测样本来自易分裂还是硬分裂,而 G i n t r a G_{i n t r a} Gintra用于训练混淆 D intra D_{\text {intra }} Dintra 。 { G intra , D intra } \left\{G_{\text {intra }}, D_{\text {intra }}\right\} {Gintra ,Dintra }使用域内分割损失 L intra s e g \mathcal{L}_{\text {intra }}^{s e g} Lintra seg和对抗损失 L inlra a d v \mathcal{L}_{\text {inlra }}^{a d v} Linlra adv进行优化。
3. Approach
令 S \mathcal{S} S表示由一组图像组成的源域 ⊂ R H × W × 3 \subset \mathbb{R}^{H \times W \times 3} ⊂RH×W×3及其对应的真值C类分割图 ⊂ ( 1 , C ) H × W \subset(1, C)^{H \times W} ⊂(1,C)H×W;类似地,令T表示包含一组未标记图像的目标域,其中 ⊂ R H × W × 3 \subset \mathbb{R}^{H \times W \times 3} ⊂RH×W×3。在本节中,介绍了一种用于语义分割的两步自监督do - main适应。第一步是基于通用UDA方法[ 28、25]的域间自适应。然后,生成目标数据的伪标签和预测熵图,使得目标数据可以被聚类成一个容易和困难的分裂。具体地,采用基于熵的排序系统将目标数据聚类为易分和难分。第二步是域内自适应,将带有伪标签的易拆分对齐到难拆分,如图2所示。该网络由域间生成器和判别器 { G i n t e r , D inter } \left\{G_{i n t e r}, D_{\text {inter }}\right\} {Ginter,Dinter }和域内生成器和判别器 { G i n t r a , D intra } \left\{G_{i n t r a}, D_{\text {intra }}\right\} {Gintra,Dintra }组成。
3 . 1 .域间适应
样本
X
s
∈
R
H
×
W
×
3
X_{s} \in \mathbb{R}^{H \times W \times 3}
Xs∈RH×W×3来自源域及其对应的映射
map
Y
s
\operatorname{map} Y_{s}
mapYs。
Y
s
Y_{s}
Ys的每个条目
Y
s
(
h
,
w
)
=
Y_{s}^{(h, w)}=
Ys(h,w)=
[
Y
s
(
h
,
w
,
c
)
]
c
\left[Y_{s}^{(h, w, c)}\right]_{c}
[Ys(h,w,c)]c 提供一个像素
(
h
,
w
)
(h, w)
(h,w) 的标签作为onehot向量。网络
G
i
n
t
e
r
G_{i n t e r}
Ginter将
X
s
X_{s}
Xs作为输入,生成"软分割映射"
P
s
=
G
i
n
t
e
r
(
X
s
)
P_{s}=G_{i n t e r}\left(X_{s}\right)
Ps=Ginter(Xs)。
每个像素
(
h
,
w
)
(h, w)
(h,w)处的C维向量
[
P
s
(
h
,
w
,
c
)
]
c
\left[P_{s}^{(h, w, c)}\right]_{c}
[Ps(h,w,c)]c 作为C类上的离散分布。给定
X
s
X_{s}
Xs 及其真实标注
Y
s
Y_{s}
Ys,通过最小化交叉熵损失,以监督的方式优化
G
inter
G_{\text {inter }}
Ginter :
L
inter
s
e
g
(
X
s
,
Y
s
)
=
−
∑
h
,
w
∑
c
Y
s
(
h
,
w
,
c
)
log
(
P
s
(
h
,
w
,
c
)
)
\mathcal{L}_{\text {inter }}^{s e g}\left(X_{s}, Y_{s}\right)=-\sum_{h, w} \sum_{c} Y_{s}^{(h, w, c)} \log \left(P_{s}^{(h, w, c)}\right)
Linter seg(Xs,Ys)=−h,w∑c∑Ys(h,w,c)log(Ps(h,w,c))
为了弥合源域和目标域之间的域间差距[ 28 ],提出利用熵图来对齐特征的分布偏移。文献[ 28 ]的假设是,训练好的模型倾向于对源图像产生过度自信(低熵)的预测,对目标图像产生低自信(高熵)的预测。由于其简单性和有效性,我们的工作采用[ 28 ]来进行域间适配。生成器
G
i
n
t
e
r
G_{i n t e r}
Ginter将目标图像
X
t
X_{t}
Xt 作为输入,生成分割图
P
t
=
G
i
n
t
e
r
(
X
t
)
P_{t}=G_{i n t e r}\left(X_{t}\right)
Pt=Ginter(Xt);熵图
I
t
I_{t}
It表示为:
I
t
(
h
,
w
)
=
∑
c
−
P
t
(
h
,
w
,
c
)
⋅
log
(
P
t
(
h
,
w
,
c
)
)
I_{t}^{(h, w)}=\sum_{c}-P_{t}^{(h, w, c)} \cdot \log \left(P_{t}^{(h, w, c)}\right)
It(h,w)=c∑−Pt(h,w,c)⋅log(Pt(h,w,c))
为了对齐域间间隙,
D
inter
D_{\text {inter }}
Dinter 被训练用来预测熵图的域标签,而
G
inter
G_{\text {inter }}
Ginter 被训练用来欺骗
D
inter
D_{\text {inter }}
Dinter ;
G
inter
G_{\text {inter }}
Ginter 和
D
inter
D_{\text {inter }}
Dinter 的优化通过以下损失函数实现:
L
inter
a
d
v
(
X
s
,
X
t
)
=
−
∑
h
,
w
log
(
1
−
D
inter
(
I
s
(
h
,
w
)
)
)
+
log
(
D
inter
(
I
t
(
h
,
w
)
)
)
,
\begin{aligned} \mathcal{L}_{\text {inter }}^{a d v}\left(X_{s}, X_{t}\right)=-\sum_{h, w} & \log \left(1-D_{\text {inter }}\left(I_{s}^{(h, w)}\right)\right) \\ +& \log \left(D_{\text {inter }}\left(I_{t}^{(h, w)}\right)\right), \end{aligned}
Linter adv(Xs,Xt)=−h,w∑+log(1−Dinter (Is(h,w)))log(Dinter (It(h,w))),
式中
I
s
I_{s}
Is为
X
s
X_{s}
Xs的熵图。优化损失函数
L
inter
a
d
v
\mathcal{L}_{\text {inter }}^{a d v}
Linter adv和
L
inter
s
e
g
\mathcal{L}_{\text {inter }}^{s e g}
Linter seg,使源数据和目标数据之间的分布偏移对齐。然而,仍然需要一种能够最小化域内间隙的高效方法。为此,我们提出将目标域分离为容易和困难的分割,并进行域内自适应。
3 . 2 .基于熵的排序
从现实世界中采集到的目标图像由于各种天气状况、运动物体和阴影等原因,具有多样化的分布。在图2中,有的目标预测图是干净的
1
{ }^{1}
1,有的则是非常噪声的,尽管它们是由同一个模型生成的。由于目标图像之间存在域内间隙,一个直接的解决方案是将目标域分解为小的子域/分割。然而,由于缺乏目标标签,它仍然是一项具有挑战性的任务。为了构建这些分裂,我们利用熵图来确定目标预测的置信水平。生成器
G
i
n
t
e
r
G_{i n t e r}
Ginter将目标图像
X
t
X_{t}
Xt作为输入生成
P
t
P_{t}
Pt和熵图
I
t
I_{t}
It。在此基础上,我们采用了一种简单有效的利用排序的方法:
R
(
X
t
)
=
1
H
W
∑
h
,
w
∑
c
I
t
(
h
,
w
,
c
)
R\left(X_{t}\right)=\frac{1}{H W} \sum_{h, w} \sum_{c} I_{t}^{(h, w, c)}
R(Xt)=HW1h,w∑c∑It(h,w,c)
其中为熵图
I
t
I_{t}
It的均值。给定
R
(
X
t
)
R\left(X_{t}\right)
R(Xt)的得分排序,引入超参数
λ
\lambda
λ作为比例,将目标图像分离为容易和困难的分割。令
X
l
e
X_{l e}
Xle and
X
t
h
X_{t h}
Xth分别表示分配给易分割和难分割的目标图像。为了进行域分离,我们定义
λ
=
∣
X
t
e
∣
∣
X
t
∣
\lambda=\frac{\left|X_{t e}\right|}{\left|X_{t}\right|}
λ=∣Xt∣∣Xte∣,其中
∣
X
t
e
∣
\left|X_{t e}\right|
∣Xte∣是易分裂的基数,
∣
X
t
∣
\left|X_{t}\right|
∣Xt∣ 是整个目标图像集的基数。为了评估
λ
\lambda
λ的影响,我们在表3中对如何优化
λ
\lambda
λ进行了消融研究。注意,我们没有引入超参数作为分离的阈值。原因在于,该阈值依赖于特定的数据集。然而,我们选择了一个超参数作为ratio,这对其他数据集表现出较强的泛化性。
3 . 3 .域内适应
由于简单拆分没有可用的注释,直接对齐简单拆分和困难拆分之间的间隙是不可行的。但我们建议使用
G
inter
G_{\text {inter }}
Ginter 的预测作为伪标签。给定一幅易分图像Xte,我们将
X
t
e
X_{t e}
Xte转到
G
inter
G_{\text {inter }}
Ginter ,得到预测图
P
t
e
=
G
inter
(
X
t
e
)
P_{t e}=G_{\text {inter }}\left(X_{t e}\right)
Pte=Ginter (Xte)。由于
P
t
e
P_{t e}
Pte是一个"软分割映射",我们将
P
t
e
P_{t e}
Pte转换为
P
t
e
\mathcal{P}_{t e}
Pte,其中每个条目是一个独热向量。借助伪标签,通过最小化交叉熵损失来优化
G
intra
G_{\text {intra }}
Gintra :
L
i
n
t
r
a
s
e
g
(
X
t
e
)
=
−
∑
h
,
w
∑
c
P
t
e
(
h
,
w
,
c
)
log
(
G
i
n
t
r
a
(
X
t
e
)
(
h
,
w
,
c
)
)
\mathcal{L}_{intra }^{seg }(\left.X_{t e}\right)= -\sum_{h, w} \sum_{c} \mathcal{P}_{t e}^{(h, w, c)} \log \left(G_{intra }\left(X_{t e}\right)^{(h, w, c)}\right)
Lintraseg(Xte)=−h,w∑c∑Pte(h,w,c)log(Gintra(Xte)(h,w,c))
为了弥合易裂分和难裂分之间的域内鸿沟,我们对两种裂分都采用了熵图上的对齐。将硬分割后的图像
X
t
h
X_{t h}
Xth作为生成器G的输入,生成分割图
P
t
h
=
G
(
X
t
h
)
P_{t h}=G\left(X_{t h}\right)
Pth=G(Xth) 和熵图
I
t
h
I_{t h}
Ith。为弥合域间间隙,训练域内判别器
D
intra
D_{\text {intra }}
Dintra 预测
I
t
e
I_{t e}
Ite和
I
t
e
I_{t e}
Ite的分裂标签
I
t
h
:
I
t
e
I_{t h}: I_{t e}
Ith:Ite来自易分裂,
I
t
h
I_{t h}
Ith来自难分裂。G被训练为愚弄
D
intra
D_{\text {intra }}
Dintra 。优化
D
intra
D_{\text {intra }}
Dintra 和
D
intra
D_{\text {intra }}
Dintra 的对抗学习损失为:
L
intra
a
d
v
(
X
t
e
,
X
t
h
)
=
−
∑
h
,
w
log
(
1
−
D
intra
(
I
t
e
(
h
,
w
)
)
)
+
log
(
D
intra
(
I
t
h
(
h
,
w
)
)
)
.
\begin{aligned} \mathcal{L}_{\text {intra }}^{a d v}\left(X_{t e}, X_{t h}\right)=-\sum_{h, w} & \log \left(1-D_{\text {intra }}\left(I_{t e}^{(h, w)}\right)\right) \\ +& \log \left(D_{\text {intra }}\left(I_{t h}^{(h, w)}\right)\right) . \end{aligned}
Lintra adv(Xte,Xth)=−h,w∑+log(1−Dintra (Ite(h,w)))log(Dintra (Ith(h,w))).
最后,我们的完全损失函数
L
\mathcal{L}
L由所有的损失函数组成:
L
=
L
inter
seg
+
L
inter
a
d
v
+
L
intra
seg
+
L
inlra
a
d
v
,
\mathcal{L}=\mathcal{L}_{\text {inter }}^{\text {seg }}+\mathcal{L}_{\text {inter }}^{a d v}+\mathcal{L}_{\text {intra }}^{\text {seg }}+\mathcal{L}_{\text {inlra }}^{a d v},
L=Linter seg +Linter adv+Lintra seg +Linlra adv,
而我们的目标是学习一个目标模型
G
G
G:
G
∗
=
arg
min
G
intra
min
G
inter
G
intra
D
intra
max
inter
L
.
G^{*}=\underset{G_{\text {intra }}}{\arg \min } \min _{\substack{G_{\text {inter }} \\ G_{\text {intra }} D_{\text {intra }}}} \max _{\text {inter }} \mathcal{L} .
G∗=Gintra argminGinter Gintra Dintra mininter maxL.
由于我们提出的模型是两步自监督方法,很难在一个训练阶段最小化
L
\mathcal{L}
L 。因此,我们选择在三个阶段最小化它。首先,我们为模型训练域间适应来优化
G
inter
G_{\text {inter }}
Ginter 和
D
inter.
D_{\text {inter. }}
Dinter. 。其次,利用
G
inter
G_{\text {inter }}
Ginter 生成目标伪标签,并基于
S
(
X
t
)
S\left(X_{t}\right)
S(Xt)对所有目标图像进行排序。最后,我们训练域内自适应来优化
G
intra
G_{\text {intra }}
Gintra and
D
intra
D_{\text {intra }}
Dintra 。
4 .实验
在这一部分,我们介绍了语义分割领域间和领域内自适应的实验细节。
4 . 1 .数据集
在语义分割的实验中,我们采用了从合成域到真实域自适应的设置。为了进行这一系列的测试,合成数据集包括GTA5 [ 19 ],辛西娅[ 20 ]和Synscapes [ 30 ]作为源域,真实数据集Cityscapes [ 6 ]作为目标域。给定有标签的源数据和无标签的目标数据对模型进行训练。我们的模型在Cityscapes验证集上进行了评估。
- GTA5:合成数据集GTA5 [ 19 ]包含24,966张分辨率为1914 × 1052px的合成图像和相应的真值标注。这些合成图像是从一个基于洛杉矶城市风景的视频游戏中收集的。自动生成的真值标注包含33个类别。对于训练,我们只考虑与Cityscapes数据集[ 6 ]兼容的19个类别,与之前的工作类似。
- 辛西娅:辛西娅-RAND-CITYSCAPES [ 20 ]被用作另一个合成数据集。它包含9400张完全标注的RGB图像。在训练过程中,我们考虑了Cityscapes数据集的16个常见类别。在评估过程中,使用16类和13类子集来评估性能。
- Synscapes [ 30 ]是一个由25,000张完全标注的RGB图像组成的真实感合成数据集,分辨率为1440 × 720px。与《城市景观》一样,"真实"注释包含19类。
- Cityscapes:Cityscapes [ 6 ]作为从现实世界收集的数据集,提供了3975张具有精细分割标注的图像。从Cityscapes的训练集中截取2975张图像用于训练。使用Cityscapes评价集中的500张图像来评估我们模型的性能。
评价。在每个类别上使用PASCAL VOC交并度量来评估语义分割性能,即IoU = TP / ( TP + FP + FN) [ 9 ],其中TP、FP和FN分别为真阳性、假阳性和假阴性像素的数量。
实施细则。在GTA5→Cityscapes和辛西娅→Cityscapes实验中,我们利用Adv Ent [ 28 ]框架训练
G
inter
G_{\text {inter }}
Ginter 和
D
inter
D_{\text {inter }}
Dinter 进行域间适配;
G
inter
G_{\text {inter }}
Ginter 的主干是ResNet - 101架构[ 10 ],其参数来自ImageNet [ 8 ];输入数据为有标签的源图像和无标签的目标图像。对域间自适应
G
inter
G_{\text {inter }}
Ginter 模型进行70000次迭代训练。训练完成后,使用
G
inter
G_{\text {inter }}
Ginter 对Cityscapes训练集中的所有2,975张图像生成分割图和熵图。然后,利用
R
(
I
l
)
R\left(I_{l}\right)
R(Il)得到所有目标图像的排序分数,并将其分为基于
λ
\lambda
λ的简单分割和硬分割。我们在表3中对
λ
\lambda
λ进行了优化的消融研究。
在域内适配方面,
G
inter
G_{\text {inter }}
Ginter 与
G
inter
G_{\text {inter }}
Ginter 具有相同的架构,
D
intra
D_{\text {intra }}
Dintra 与
D
inter
D_{\text {inter }}
Dinter 具有相同的架构;输入数据为2,975张带有易分割伪标签的Cityscapes训练图像。
G
intra
G_{\text {intra }}
Gintra 使用ImageNet和
D
intra
D_{\text {intra }}
Dintra 的预训练参数从头开始训练,类似于AdvEnt。除了前面提到的实验,我们还进行了Synscapes→Cityscapes的实验。为了与Adapt Seg Net [ 25 ]进行对比,我们将Adapt Seg Net框架应用于域间和域内自适应实验。
类似于[ 28 ]和[ 25 ],我们利用conv4和conv5的多级特征输出进行域间自适应和域内自适应。为了训练
G
inter
G_{\text {inter }}
Ginter 和
G
intra
G_{\text {intra }}
Gintra ,我们使用学习率为2.5 × 10-4,动量为0.9,权重衰减为10 - 4的SGD优化器[ 2 ]来训练
G
inter
G_{\text {inter }}
Ginter 和
G
intra
G_{\text {intra }}
Gintra 。学习率为10 - 4的Adam优化器[ 12 ]用于训练
D
inter
D_{\text {inter }}
Dinter 和
D
intra
D_{\text {intra }}
Dintra 。
4 . 2 .结果
GTA5 .在表1 ( a )中,我们在Cityscapes验证集上比较了我们的方法与其他先进方法[ 25,5,28]的分割性能。为了公平比较,基线模型采用了DeepLab - v2 [ 3 ]的ResNet - 101主干。总体而言,我们提出的方法在平均IoU上达到了46.3 %。与Adv Ent相比,本文方法的域内自适应使平均Io U提高了2.5 %。
为了突出所提出的域内适应的相关性,我们在表2中与分割损失
L
intra
s
e
g
\mathcal{L}_{\text {intra }}^{s e g}
Lintra seg和对抗适应损失
L
intra
a
d
v
\mathcal{L}_{\text {intra }}^{a d v}
Lintra adv进行了比较。基线Adv Ent [ 28 ]达到m Io U的43.8 %。通过使用AdvEnt +域内自适应,即
L
intra
seg
=
0
\mathcal{L}_{\text {intra }}^{\text {seg }}=0
Lintra seg =0,我们获得了45.1 %,显示了对抗学习对于域内比对的有效性。通过使用AdvEnt +自训练,当
λ
=
1.0
\lambda=1.0
λ=1.0(所有用于自训练的伪标签),即
L
intra
a
d
v
=
0
\mathcal{L}_{\text {intra }}^{a d v}=0
Lintra adv=0时,我们实现了45.5 %的mIoU,这表明使用伪标签的重要性。最后,我们提出的模型实现了46.3 %的mIOU (自训练+域内比对)。
诚然,复杂场景(包含许多对象)可能被归类为"难"。为了提供更有代表性的"排名",我们采用了一种新的归一化方法,将平均熵与目标图像中预测的稀有类的数量相除。对于Cityscapes数据集,我们将这些稀有类定义为"墙、栅栏、杆、交通灯、交通标志、地形、骑手、卡车、公交车、火车、汽车"。熵归一化有助于将物体较多的图像移动到易于分割的位置。通过归一化,我们提出的模型达到了m Io U的47.0 %,如表2所示。我们提出的方法对某些类也有局限性。
在图3中,我们根据我们的技术提供了一些分割图的可视化。经过域间比对和域内比对训练的模型生成的分割图比只经过域间比对训练的基准模型Adv Ent更加准确。图4中可见属于"硬"分割的一组代表性图像。在域内对齐之后,我们产生了如( d )列所示的分割图。与( c )列相比,我们的模型可以迁移到更难的目标图像。
超参数
λ
\lambda
λ的分析。在我们的实验GTA5→Cityscapes中,我们对寻找超参数
λ
\lambda
λ的合适值进行了研究。在表3中,使用不同的
δ
\delta
δ值来设置域分离的决策边界。当
λ
=
0.67
\lambda=0.67
λ=0.67,即
∣
X
t
e
∣
\left|X_{t e}\right|
∣Xte∣与
∣
X
t
∣
\left|X_{t}\right|
∣Xt∣的比值约为2 / 3时,模型在Cityscapes验证集上取得了46.3的mIoU作为最佳性能。
辛西娅。我们使用辛西娅作为源域,在表1的Cityscapes验证集上展示了所提方法和先进方法[ 25、28]的评估结果。为了公平比较,我们还采用了与ResNet - 101架构相同的DeepLab - v2。我们的方法在16类和13类基线上都进行了评估。根据表1 ( b )的结果,我们提出的方法在16类和13类基线上分别取得了41.7 %和48.9 %的平均IoU。如表1所示,我们的模型在汽车和摩托车类上明显比现有技术更准确。原因是我们应用了域内自适应来进一步缩小域间隙。
Synscapes。目前我们利用Syncapes数据集发现的唯一工作是[ 25 ]。因此我们采用Adapt Seg Net [ 25 ]作为基线模型。为了公平比较,我们在实验中只考虑使用vanilla - GAN。通过域间和域内自适应,我们的模型获得了54.2 %的mIoU,高于如表1 ( c )所示的AdaptSegNet。
4 . 3 .讨论理论分析。
对比表1中的( a )、( b ),GTA5比辛西娅对Cityscapes更有效。我们认为这是由于GTA5比其他合成数据集具有更多与Cityscapes相似的街道场景图像。我们也提供了理论分析。设
H
\mathcal{H}
H表示假设类,S和T分别表示源域和目标域.文献[ 1 ]提出将期望误差约束在目标域
ϵ
T
(
h
)
:
∀
h
∈
H
,
ϵ
T
(
h
)
≤
ϵ
S
(
h
)
+
1
2
d
H
(
S
,
T
)
+
Λ
\epsilon_{T}(h): \forall h \in \mathcal{H}, \epsilon_{T}(h) \leq \epsilon_{S}(h)+\frac{1}{2} d_{\mathcal{H}}(S, T)+\Lambda
ϵT(h):∀h∈H,ϵT(h)≤ϵS(h)+21dH(S,T)+Λ,其中
ϵ
S
(
h
)
\epsilon_{S}(h)
ϵS(h) 为源域上的期望误差,
d
H
(
S
,
T
)
=
2
sup
∣
Pr
S
(
h
)
−
Pr
T
(
h
)
∣
d_{\mathcal{H}}(S, T)=2 \sup \left|\operatorname{Pr}_{S}(h)-\operatorname{Pr}_{T}(h)\right|
dH(S,T)=2sup∣PrS(h)−PrT(h)∣为域发散的距离,通常情况下
Λ
\Lambda
Λ被认为是一个常数。因此,在我们的情况下,
ϵ
T
(
h
)
\epsilon_{T}(h)
ϵT(h)是
ϵ
S
(
h
)
\epsilon_{S}(h)
ϵS(h)和
d
H
(
S
,
T
)
d_{\mathcal{H}}(S, T)
dH(S,T)的上界。我们提出的模型是通过使用域间和域内对齐来最小化
d
H
(
S
,
T
)
d_{\mathcal{H}}(S, T)
dH(S,T)。如果
d
H
(
S
,
T
)
d_{\mathcal{H}}(S, T)
dH(S,T)具有较高的值,那么在域间适应的第一阶段中较高的上界会影响我们的熵排序系统,以及域内适应过程。因此,我们的模型在域间隙较大时效率较低。在局限性方面,我们的模型性能受到
d
H
(
S
,
T
)
d_{\mathcal{H}}(S, T)
dH(S,T) 和
ϵ
S
(
h
)
\epsilon_{S}(h)
ϵS(h)的影响。首先,源域和目标域的散度越大,
d
H
(
S
,
T
)
d_{\mathcal{H}}(S, T)
dH(S,T)值越大。误差上界较高,因此我们的模型效果较差。其次,当模型采用小型神经网络时,
ϵ
S
(
h
)
\epsilon_{S}(h)
ϵS(h)会非常高。在这种情况下,我们的模型也会比较低效。
数字分类。我们的模型也能够应用在数字分类任务中。我们考虑MNIST→USPS,USPS→MNIST和SVHN→MNIST的适应迁移,我们的模型使用训练集进行训练:MNIST有60000张图像,USPS有7291张图像,标准SVHN有73257张图像。在标准测试集MNIST ( 10000张图像)和USPS ( 2007张图像)上对提出的模型进行评估。在数字分类任务中,
G
inter
G_{\text {inter }}
Ginter 和
G
intra
G_{\text {intra }}
Gintra 作为相同架构的分类器,是基于Le Net架构的变体。在域间自适应方面,利用Cy CADA [ 11 ]的框架训练
G
inter
G_{\text {inter }}
Ginter 和
D
inter.
D_{\text {inter. }}
Dinter. 。在排序阶段,我们使用
G
inter
G_{\text {inter }}
Ginter 生成所有目标数据的预测,并使用
R
(
X
t
)
R\left(X_{t}\right)
R(Xt)计算它们的排序得分。关于
λ
\lambda
λ,我们在所有实验中都取
λ
=
0.8
\lambda=0.8
λ=0.8。我们的域内适配网络也是基于Cy CADA [ 11 ]。在表4中,我们提出的模型在MNIST→USPS上达到95.8 ± 0.1 %的准确率,在USPS→MNIST上达到97.8 ± 0.1 %的准确率,在SVHN→MNIST上达到95.1 ± 0.3 %的准确率。本文模型优于基准模型Cy CADA [ 11 ]。
5 .结论
在本文中,我们提出了一种自监督的域自适应,以同时最小化域间和域内差距。我们首先使用来自现有方法的域间自适应来训练模型。其次,我们生成目标图像熵图并使用基于熵的排序函数来分割目标域。最后,我们进行域内自适应以进一步缩小域间隙。我们对交通场景中的合成图像和真实图像进行了大量的实验。我们的模型可以与现有的域适应方法相结合。实验结果表明,我们的模型优于现有的自适应算法。
表1为使用GTA5 ( a )、辛西娅( b )和Synscapes ( c )训练的模型对Cityscapes验证集的语义分割结果。所有结果均由基于ResNet - 101的模型生成。在( a )和( b )的实验中,采用Adv Ent [ 28 ]作为域间自适应和域内自适应的框架。在( c )的实验中,使用AdaptSegNet [ 25 ]作为域间自适应和域内自适应的框架。( b )中的mIoU 表示13个类的平均IoU,不包括的类。
表2:GTA5→Cityscapes上的自训练和域内适应增益。
表3:超参数λ将靶区分离为易裂区和难裂区的消融研究。
图3:GTA5→Cityscapes评价示例结果。( a )和( d )是来自Cityscapes验证集的图像和相应的真值标注。( b )是域间适应的预测分割图[ 28 ]。( c )是我们技术的预测图。
图4:GTA5→Cityscapes硬分割熵图示例。( a )来自Cityscapes训练集的硬图像。( b )和( c )分别为仅通过域间自适应训练得到的模型预测熵和分割图[ 28 ]。( d )是我们模型对硬图像的改进预测分割结果。
表4:跨数字数据集适应实验结果。