Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentatio

全文翻译如下:

摘要

本文重点研究在语义分割的背景下,将源领域的知识迁移到目标领域的无监督领域自适应。现有方法通常将伪标签作为基本真值来充分挖掘未标记的目标域数据。然而,目标域数据的伪标签通常由源域上训练的模型来预测。因此,生成的标签不可避免地包含了由于训练域和测试域之间的差异而导致的错误预测,这些错误预测可以转移到最终的适应模型中,并在很大程度上损害了训练过程。
为了克服该问题,本文提出在训练过程中显式估计预测不确定性,以纠正用于无监督语义分割自适应的伪标签学习。给定输入图像,模型输出语义分割预测以及预测的不确定性。具体来说,我们通过预测方差对不确定性进行建模,并将不确定性纳入优化目标。为了验证本文方法的有效性,我们在两个流行的合成到真实的语义分割基准数据集GTA5→Cityscapes和辛西娅→Cityscapes以及一个跨城市基准数据集Cityscapes→Oxford RobotCar上对本文方法进行了评估。我们通过大量的实验证明了所提出的方法( 1 )根据预测方差动态设置不同的置信度阈值,( 2 )纠正来自噪声伪标签的学习,( 3 )实现了对传统伪标签学习的显著改进,并在所有三个基准测试集上获得了有竞争力的性能。
关键词无监督域适应·域自适应语义分割·图像分割·不确定性估计

1 Introduction

深度神经网络( Deep Neural Networks,DNNs )在语义分割领域得到了广泛的应用,并取得了[ Liang et al , 2017 , Wei et al , 2018]的性能。然而,最近的工作表明,DNNs在对看不见的环境(如雨天采集的测试数据[ Hendrycks and Dietterich , 2019 , Wu et al , 2019] )的可扩展性方面受到限制。一个直观的想法是标注更多目标环境的训练数据,然后重新训练分割模型。然而,语义分割任务通常需要密集的标注,并且在新的环境中对收集的数据进行人工标注像素级的标签是负担不起的。为了应对这一挑战,研究人员采用了无监督的语义分割适应,这与现实世界的实践更接近了一步。在无监督语义分割自适应中,考虑了两个在不同环境下收集的数据集:一个为每个像素提供类别标签的有标签源域数据集和一个只提供收集数据而不提供标注的无标签目标域数据集。与目标域中的标注数据相比,未标注数据通常易于采集。语义分割自适应旨在利用已标记的源域数据和未标记的目标域数据,使训练好的模型适应目标环境。

语义分割自适应的主要挑战是源域和目标域数据分布的差异。语义分割自适应的方法有两条线。一方面,现有的工作主要是通过最小化不同层次的分布差异来进行领域对齐,如像素级[ Wu et al , 2018 , Wu et al , 2019 , Hoffman et al , 2018]、特征级[ Huang et al , 2018 , Yue et al , 2019 , Luo et al , 2019a , Zhang et al , 2019b]和语义级[ Tsai et al , 2018 , Tsai et al , 2019 , Wang et al , 2019]。尽管取得了巨大的成功,但这一工作路线是次优的。因为对齐目标驱使模型学习领域间的共享知识而忽略了领域特有知识。领域特定知识是最终目标,即适应目标领域的模型的关键之一。另一方面,一些研究者通过充分挖掘未标记的目标领域数据[ Zou et al , 2018 , Zou et al , 2019 , Han et al , 2019],专注于学习目标领域的特定领域知识。具体来说,这一行方法通常采用两阶段流水线,类似于传统的半监督框架[ Lee , 2013]。第一步是通过从有标签数据中学习到的知识来预测伪标签,例如在源域上训练的模型。第二步是最小化未标记目标域数据伪标签上的交叉熵损失。在训练过程中,伪标签通常被视为精确的标注来优化模型。
然而,基于伪标签的场景自适应方法存在一个固有的问题。伪标签通常会受到在不同数据分布(见图1)上训练的模型带来的噪声影响。有噪声的标签可能会影响后续的学习。尽管现有的一些工作[ Zou et al , 2018 , Zou et al , 2019]已经提出手动设置阈值来忽略低置信度的伪标签,但它仍然在几个方面具有挑战性:首先,对于不同的目标域,阈值的值很难确定。它依赖于源域和目标域的相似性,事先很难估计。其次,对于不同的类别,阈值的取值也很难确定。例如,交通标志等目标在源域中很少出现。稀有类别的总体置信度得分相对较低。高阈值可能会忽略稀有类别的信息。第三,阈值也与像素的位置有关。例如,位于目标中心的像素,如汽车,相对容易预测,而位于目标边缘的像素通常面临模糊的预测。这反映了阈值不仅要考虑置信度得分,还要考虑像素的位置。综上所述,分割图中的每个像素都需要区别对待。固定的阈值很难匹配需求。
针对上述挑战,我们提出了一种简单有效的基于不确定性建模的语义分割自适应方法,可以自动为输入图像提供像素级阈值。在不引入额外参数或模块的情况下,我们将不确定性表示为预测方差。预测方差以自举的方式反映模型对预测的不确定性。同时,我们明确地将方差纳入优化目标,称为方差正则化,它作为一个自动阈值,与标准的交叉熵损失兼容。自动阈值修正了对噪声标签的学习,并确保了训练的连贯性。因此,所提方法能够有效地利用伪标签提供的领域特定信息,并充分利用未标记的目标领域数据。
简而言之,我们的贡献如下:

  • 据我们所知,我们是最早尝试利用不确定性估计并使自动阈值能够从噪声伪标签中学习的人之一。这与大多数现有的域适应方法直接利用噪声伪标签或手动设置置信度阈值形成对比。
  • 在不引入额外参数或模块的情况下,我们将不确定性表示为预测方差。具体来说,我们引入了一个新的正则化项,方差正则化,它与标准的交叉熵损失兼容。方差正则化充当自动阈值,并校正从噪声伪标签中的学习。
  • 我们在两个合成真实基准和一个跨城市基准上验证了所提方法。与传统的伪标签学习方法相比,所提方法取得了显著的改进,与现有方法相比具有竞争力的性能。
  • 在这里插入图片描述
    图1:Cityscapes [ Cordts等, 2016]上噪声伪标签样本。我们利用广泛使用的基线模型[ Tsai等, 2018]来生成伪标签。尽管正确预测的区域很大,但伪标签仍然受到数据分布偏差的影响,不可避免地包含错误预测。(最好在色彩上观看)

2 Related work

2.1 Semantic Segmentation Adaptation

无监督域适应的主要挑战是源域和目标域[ Fu et al , 2015 , Wang et al , 2018 , Li et al , 2020b , Li et al , 2020c , Kang et al , 2020]的数据分布不同。为了应对这一挑战,一些开创性的工作[ Hoffman et al , 2018 , Wu et al , 2018]提出将源域数据的视觉风格迁移到目标域。这样就可以在带有目标风格的标注数据上训练模型。类似地,最近的一些工作利用对抗域适应[ Tzeng et al . , 2015 , Ganin and Lempitsky , 2015 , Luo et al . , 2020]将源域图像或特征迁移到多个域,并打算学习域不变特征[ Wu et al , 2019 , Yue et al , 2019]。此外,一些工作关注神经网络中间激活之间的对齐。Luo等人[ Luo et al , 2019a , Luo et al , 2019b]利用注意力机制细化特征对齐。与其修改视觉外观,高层语义特征之间的对齐也吸引了大量的关注。Tsai等[ Tsai et al , 2018 , Tsai et al , 2019]提出利用判别器来要求两个域之间的语义输出相似。总而言之,这一系列方法侧重于对齐,学习源域和目标域之间的共享知识。然而,领域特异性信息通常被忽视,这是适应目标环境的关键之一。因此,在本文中,我们诉诸另一类方法,即基于伪标签学习的方法。

2.2 Pseudo label learning

另一类语义分割自适应方法利用伪标签使模型适应目标域[ Zou et al . , 2018 , Zou et al . , 2019 , Zheng and Yang , 2020]。其主要思想接近于传统的半监督学习方法,即熵最小化,它首先被提出来利用未标记数据[格朗瓦莱和Bengio , 2005]。熵最小化鼓励模型以更高的置信度给出预测。在实际应用中,Reed等人[ Reed等, 2014]提出了基于熵最小化的自举算法,并在目标检测和情感识别上展示了有效性。此外,Lee等人[ Lee , 2013]利用训练好的模型来预测未标记数据的伪标签,然后将模型微调为监督学习方法来充分利用未标记数据。最近,Pan等人[潘文卿等, 2019]利用伪标签学习来最小化源域原型的目标域数据分布。对于无监督语义分割,Zou等人[ Zou et al , 2019 , Zou et al , 2018]将伪标签策略引入到语义分割自适应中,并对正则化项进行了全面分析。本着类似的精神,Zheng等人[郑志刚、杨志刚, 2020]也应用伪标签学习领域特定的特征,产生了有竞争力的结果。然而,伪标签学习的一个固有缺点是伪标签中通常包含有噪声的预测。尽管大多数伪标签是正确的,但也存在错误的标签,这可能会影响后续的训练。如果模型在噪声标签上进行微调,误差也会传递到适应后的模型。与现有工作不同的是,我们并没有对伪标签一视同仁,而是试图纠正从噪声标签中的学习。该方法在对模型进行微调时,显式预测伪标签的不确定性。这种不确定性可以被视为一个自动阈值来调整从噪声标签中的学习。

2.3 Co-training

协同训练是一种半监督学习方法,需要两个分类器学习互补信息[ Blum和Mitchell , 1998]。一些领域适应工作也探索了类似的学习策略。[ Saito et al , 2018 , Luo et al , 2019b]通过引入一个额外的损失,即[ Saito等, 2018]中的Ladv和[ Luo et al , 2019b]中的Lweight,显式地最大化两个分类器的差异,从而获得互补分类器。[ Saito等, 2018]通过对抗训练最小化特征差异。同样,[ Luo et al , 2019b]在判别器损失上应用分类器差异来稳定训练。相比之下,由于我们在不同的中间层上部署了两个分类器,所提出的方法在本质上允许分类器不一致。我们没有引入这种损失来鼓励分类器不一致。否则,每个伪标签都是高不确定性。例如,如果两个分类器输出一个相同的类别预测,我们将不惩罚网络。相比之下,[ Saito等, 2018]将惩罚分类器以实现对抗训练。此外,当提出的方法使用分类器差异来纠正分割时的伪标签学习时,[ Saito et al , 2018 , Luo et al , 2019b]仍然使用传统的分割损失,不处理噪声标签。

2.4 Uncertainty Estimation

针对噪声问题,现有工作从输入数据、标注和模型权重等不同方面对不确定性估计进行了探索。在这项工作中,我们重点关注标注不确定性。我们的目标是学习一个能够预测标注是否正确的模型,并从噪声伪标签中学习。在现有的工作中,贝叶斯网络被广泛用于预测网络[ Nielsen和Jensen , 2009]中权重的不确定性。本着类似的精神,Kendall等人[ Kendall和Gal , 2017]将贝叶斯理论应用于计算机视觉任务的预测中,意图不仅提供预测结果而且提供预测的置信度。此外,Yu等人[ Yu et al , 2019]通过一个额外的辅助分支显式地建模不确定性,并将随机噪声引入训练。该模型可以显式地估计特征均值和预测方差。受上述工作的启发,我们提出利用预测方差来表示不确定性。与前人的工作有两个根本的区别:( 1 )我们没有引入额外的模块或参数来模拟噪声。相反,我们利用分割模型内部的预测差异。( 2 )将不确定性显式地引入到训练目标中,采用自适应方法自动学习像素级不确定性图。所提方法不需要手动设置阈值来强制伪标签学习。
在这里插入图片描述
图2:以ResNet - 101[ He et al , 2016a]为骨架,基于Deeplab - v2[ Chen等, 2017]的二类分类模型示意图。我们沿用之前的工作[ Zhao et al , 2017 , Tsai et al , 2018 , Tsai et al , 2019 , Luo et al , 2019a , Luo et al , 2019b , Zheng and Yang , 2020],增加一个与主分类器结构类似的辅助分类器。辅助分类器以浅层res4b22的激活作为输入,而主分类器利用res5c的激活作为输入。ASPP模块表示Atrous空间金字塔池化层[ Chen等, 2017],fc层表示全连接层。二类分类模型的最初目标是避免梯度消失问题,帮助训练。在这项工作中,我们进一步利用两个分类器的预测差异作为不确定性估计。

3方法

在3.1节中,我们首先给出问题的定义和外延。然后,我们重新讨论了基于伪标签的传统域适应方法,并讨论了伪标签学习(见3.2节)的局限性。为了应对上述局限性,我们提出利用不确定性估计。特别地,我们将不确定性表示为预测方差,并在3.3节给出了一个简单的定义,然后提出了方差正则化,它与3.4节中的标准交叉熵损失兼容。此外,实现细节在3.5节中给出。

3.1 Problem Definition

给定源域的有标签数据集 X s = { x s i } i = 1 M X_{s}=\left\{x_{s}^{i}\right\}_{i=1}^{M} Xs={xsi}i=1M和目标域的无标签数据集 X t = { x t j } j = 1 N X_{t}=\left\{x_{t}^{j}\right\}_{j=1}^{N} Xt={xtj}j=1N,语义分割自适应拟学习投影函数F,将输入图像X映射到语义分割Y。M和N分别表示有标签数据和无标签数据的个数。源域 X s X_{s} Xs的每一个标注数据都提供源域语义分割标签 Y s = { y s i } i = 1 M Y_{s}=\left\{y_{s}^{i}\right\}_{i=1}^{M} Ys={ysi}i=1M,而目标域标签 Y t = { y l j } j = 1 N Y_{t}=\left\{y_{l}^{j}\right\}_{j=1}^{N} Yt={ylj}j=1N在训练过程中保持未知。无监督域适应的目的是估计模型参数 θ t \theta_{t} θt,以最小化对目标域输入的预测偏差:
Bias ⁡ ( p t ) = E [ F ( x t j ∣ θ t ) − p t j ] \operatorname{Bias}\left(p_{t}\right)=\mathbb{E}\left[F\left(x_{t}^{j} | \theta_{t}\right)-p_{t}^{j}\right] Bias(pt)=E[F(xtjθt)ptj]
其中 p t p_{t} pt为目标数据的真值类概率。理想情况下, p t j p_{t}^{j} ptj是单热向量且 p t j p_{t}^{j} ptj的最大值为1。真值标签 y t j = arg ⁡ max ⁡ p t j y_{t}^{j}=\arg \max p_{t}^{j} ytj=argmaxptj。相比之下, F ( x t j ∣ θ t ) F\left(x_{t}^{j} | \theta_{t}\right) F(xtjθt) x t j x_{t}^{j} xtj的预测概率分布。当我们最小化方程1中的预测偏差时,预测结果与真实概率之间的差异被最小化。

3.2 Pseudo Label Learning Revisit

伪标签学习是利用伪标签从无标签数据中学习。通常的做法包括两个阶段。第一阶段是为未标记的目标域训练数据生成伪标签。通过源域数据训练的模型( y ^ ι j = arg ⁡ max ⁡ F ( x t j ∣ θ s ) \hat{y}_{\iota}^{j}=\arg \max F\left(x_{t}^{j} | \theta_{s}\right) y^ιj=argmaxF(xtjθs))得到伪标签。我们注意到 θ s \theta_{s} θs是从源域训练数据中学习到的模型参数。因此,由于 X s X_{s} Xs and X l X_{l} Xl的数据分布不同,伪标签( y ^ t \hat{y}_{t} y^t)的性质并不准确。我们记( p ^ t j \hat{p}_{t}^{j} p^tj)为( y ^ t j \hat{y}_{t}^{j} y^tj)的单热向量.如果类别指数 c c c等于 y ^ t j , p ^ t j ( c ) = 1 \hat{y}_{t}^{j}, \hat{p}_{t}^{j}(c)=1 y^tj,p^tj(c)=1否则 p ^ t j ( c ) = 0 \hat{p}_{t}^{j}(c)=0 p^tj(c)=0。伪学习的第二阶段是最小化预测偏差。我们可以将该偏差表述为式( 1 )的类似形式:
Bias ⁡ ( p t ) = E [ F ( x t j ∣ θ t ) − p ^ t j ] + E [ p ^ t j − p t j ] \operatorname{Bias}\left(p_{t}\right)=\mathbb{E}\left[F\left(x_{t}^{j} | \theta_{t}\right)-\hat{p}_{t}^{j}\right]+\mathbb{E}\left[\hat{p}_{t}^{j}-p_{t}^{j}\right] Bias(pt)=E[F(xtjθt)p^tj]+E[p^tjptj]
第一项是预测与伪标签之间的差值,第二项是伪标签与真实标签之间的误差。在第二阶段对模型进行微调时,我们固定了伪标签。因此,第二项是一个常数。现有方法通常将第一项作为前文本任务进行优化。等价于将伪标签( pt )视为真标签。现有方法通过训练模型参数θ t来最小化预测与伪标签之间的偏差。实际中,交叉熵损失通常采用[ Zou et al . , 2018 , Zou et al . , 2019 , Zheng and Yang , 2020]。目标可以表述为:
L c e = E [ − p ^ t j log ⁡ F ( x t j ∣ θ t ) ] L_{c e}=\mathbb{E}\left[-\hat{p}_{t}^{j} \log F\left(x_{t}^{j} \mid \theta_{t}\right)\right] Lce=E[p^tjlogF(xtjθt)]
讨论。伪标签学习有两个优点:一是模型只在目标域数据上训练。训练数据分布与测试数据分布接近,减小了输入分布差异。其次,尽管域不一致,大多数伪标签是正确的。理论上,微调后的模型可以达到与强监督模型相当的竞争绩效。但存在一个固有的问题,即伪标签不可避免地包含噪声。错误的标注从源模型转移到最终模型。有噪的伪标签会在很大程度上影响训练。

3.3 Uncertainty Estimation

为了解决标签噪声问题,我们通过预测方差对伪标签的不确定性进行建模。直观上,我们可以将预测的方差表示为:
Var ⁡ ( p ℓ ) = E [ ( F ( x l j ∣ θ l ) − p t j ) 2 ] \operatorname{Var}\left(p_{\ell}\right)=\mathbb{E}\left[\left(F\left(x_{l}^{j} | \theta_{l}\right)-p_{t}^{j}\right)^{2}\right] Var(p)=E[(F(xljθl)ptj)2]
由于 p t p_{t} pt是未知的,一种简单的方法是利用伪标签 p ^ t \hat{p}_{t} p^t来代替 p t p_{t} pt。方差可近似为:
Var ⁡ ( p t ) ≈ E [ ( F ( x t j ∣ θ t ) − p ^ t j ) 2 ] \operatorname{Var}\left(p_{t}\right) \approx \mathbb{E}\left[\left(F\left(x_{t}^{j} | \theta_{t}\right)-\hat{p}_{t}^{j}\right)^{2}\right] Var(pt)E[(F(xtjθt)p^tj)2]
然而,在方程2中,我们已经将 F ( x t j ∣ θ t ) F\left(x_{t}^{j} | \theta_{t}\right) F(xtjθt) 推至 p ^ t \hat{p}_{t} p^t在优化预测偏差时,式( 5 )中的方差也会最小化。不能反映训练过程中真实的预测方差。因此,在本文中,我们采用另一种近似:
Var ⁡ ( p t ) ≈ E [ ( F ( x t j ∣ θ t ) − F a u x ( x t j ∣ θ t ) ) 2 ] \operatorname{Var}\left(p_{t}\right) \approx \mathbb{E}\left[\left(F\left(x_{t}^{j} | \theta_{t}\right)-F_{a u x}\left(x_{t}^{j} | \theta_{t}\right)\right)^{2}\right] Var(pt)E[(F(xtjθt)Faux(xtjθt))2]
其中 F aux  ( x t ∣ θ t ) F_{\text {aux }}\left(x_{t} | \theta_{t}\right) Faux (xtθt)表示分割模型的辅助分类器输出。如图2所示,我们采用广泛使用的二类分类模型,该模型包含一个主分类器和一个辅助分类器。我们注意到额外的辅助分类器可以被看作是免费的午餐,因为大多数分割模型,包括PSPNet [ Zhao et al , 2017]和[ Tsai et al , 2018 , Tsai et al , 2019 , Luo et al , 2019a , Zheng and Yang , 2020]中修改的DeepLab - v2,都包含辅助分类器来解决梯度消失问题[ He et al , 2016b]并帮助训练。在本文中,我们进一步利用辅助分类器来估计方差。在实际应用中,我们使用两个分类器预测的KL散度作为方差:
D k l = E [ F ( x t j ∣ θ t ) log ⁡ ( F ( x t j ∣ θ t ) F a u x ( x t j ∣ θ t ) ) ] D_{k l}=\mathbb{E}\left[F\left(x_{t}^{j} | \theta_{t}\right) \log \left(\frac{F\left(x_{t}^{j} | \theta_{t}\right)}{F_{a u x}\left(x_{t}^{j} | \theta_{t}\right)}\right)\right] Dkl=E F(xtjθt)log Faux(xtjθt)F(xtjθt)
如果两个分类器提供两个不同的类预测,则近似方差将获得一个大值。它反映了模型对预测的不确定性。此外,值得注意的是,方程7中提出的方差与伪标签 p ^ t \hat{p}_{t} p^t无关。
讨论:什么导致了主分类器和辅助分类器的不一致?首先,主要原因是感受野不同。如图2所示,辅助分类器位于相对较浅的层,初级分类器从较深的层学习。两个分类器的输入激活不同,导致预测差异。第二,两个分类器尚未在目标域数据上进行训练。因此,两种分类器对目标域数据可能具有不同的偏向性。第三,我们将dropout函数[斯里瓦斯塔瓦等, 2014]应用到两个分类器中,这也会导致训练过程中预测的不同。预测偏差有助于我们估计不确定性。

3 . 4方差正则化

在本文中,我们提出了方差正则化项来校正从噪声标签中的学习。它利用了3.3节中引入的近似方差。修正目标可表述为:
L r e c t = E [ 1 Var ⁡ ( p t ) Bias ⁡ ( p t ) + Var ⁡ ( p t ) ] L_{r e c t}=\mathbb{E}\left[\frac{1}{\operatorname{Var}\left(p_{t}\right)} \operatorname{Bias}\left(p_{t}\right)+\operatorname{Var}\left(p_{t}\right)\right] Lrect=E[Var(pt)1Bias(pt)+Var(pt)]
值得注意的是,我们并不打算在所有条件下最小化预测偏差。如果预测方差收到一个大值,我们将不惩罚预测偏差 Bias ⁡ ( p t ) \operatorname{Bias}\left(p_{t}\right) Bias(pt)。同时,为了防止模型一直预测较大的方差,作为权衡,我们通过加入 Var ⁡ ( p t ) \operatorname{Var}\left(p_{t}\right) Var(pt)引入正则化项。此外,由于 Var ⁡ ( p t ) \operatorname{Var}\left(p_{t}\right) Var(pt)可以为零,可能会导致除以零的问题。为了稳定训练,我们采用[ Kendall和Gal , 2017]中的策略,将 1 / Var ⁡ 1 / \operatorname{Var} 1/Var替换为 L rect  = E [ exp ⁡ { − D k l } L c e + D k l ] L_{\text {rect }}=\mathbb{E}\left[\exp \left\{-D_{k l}\right\} L_{c e}+D_{k l}\right] Lrect =E[exp{Dkl}Lce+Dkl]。因此,损失项可以用近似项改写为:
L rect  = E [ exp ⁡ { − D k l } L c e + D k l ] L_{\text {rect }}=\mathbb{E}\left[\exp \left\{-D_{k l}\right\} L_{c e}+D_{k l}\right] Lrect =E[exp{Dkl}Lce+Dkl].
所提方法的训练过程总结在算法1中。在实际应用中,我们利用源域数据集中学习到的参数 θ s \theta_{s} θs来初始化 θ t \theta_{t} θt。在每次迭代中,我们计算给定输入的预测方差和交叉熵损失。我们利用 L rect  L_{\text {rect }} Lrect 来更新 θ t \theta_{t} θt。由于没有引入额外的模块,校正目标的训练成本近似等于传统的伪标签学习。
讨论:本文提出的方差正则化方法有什么优势?首先,所提出的方差正则化没有引入额外的参数或模块来建模不确定性。与[ Yu et al , 2019]不同,我们没有显式地引入高斯噪声或额外的分支。相反,我们利用了模型本身的预测方差。第二,提出的方差正则化具有良好的可扩展性。如果方差等于零,优化损失退化为常规伪学习的目标,模型将只关注最小化预测偏差。相比之下,当方差取值较高时,模型容易出现忽略偏差和跳过歧义伪标签的情况;第三,提出的方差正则化具有相同的预测形状,并且可以作为伪标签的像素级阈值。如图3所示,可以观察到噪声通常存在于方差较大的区域。提出的矫正损失为不同的区域分配不同的阈值。例如,对于具有一致性预测的位置,方差正则化驱动模型信任伪标签。对于预测不明确的区域,方差正则化驱动模型忽略伪标签。与现有工作为所有训练样本设置统一阈值不同,所提出的伪标签可以为每个像素提供更准确和自适应的阈值。

3.5 Implementation

网络架构。本文采用目前广泛使用的Deeplab - v2 [ Chen等, 2017]作为基线模型,其中ResNet - 101 [ He et al , 2016a]作为骨干模型。我们沿用现有的大多数工作[ Tsai et al , 2018 , Tsai et al , 2019 , Luo et al , 2019a , Luo et al , 2019b , Zheng and Yang , 2020],增加一个辅助分类器。辅助分类器与主分类器具有相似的结构,包括一个融合空洞卷积金字塔( ASPP )模块[ Chen等, 2017]和一个全连接层。在res4b22层之后加入辅助分类器。我们还在全连接层之前插入了dropout层[斯里瓦斯塔瓦等, 2014],dropout率为0.1。
伪标签。为了验证本文方法的有效性,我们使用Adapt Seg Net [ Tsai等, 2018]和MR Net [郑志刚、杨志刚, 2020]两种现有方法生成目标域数据集的伪标签。

  • Adapt Seg Net [ Tsai等, 2018]是一个广泛采用的基线模型,它使用对抗训练来对齐语义输出。
  • MR Net [郑志刚、杨志刚, 2020]是最近的一个工作,它使用内存模块来规则化模型训练,特别是针对目标域数据。

具体而言,MRNet在3个基准测试集上的m Io U均优于Adapt Seg Net。因此,如果不是特定的,我们采用更强基线生成的伪标签,即MRNet。值得一提的是,我们没有使用源域训练数据。在实际应用中,我们仅在带有伪标签的目标域训练数据上对模型进行微调。

培训细节。输入图像由[ 0.8、1.2]进行尺度抖动调整为 1280 × 640 1280 \times 640 1280×640 ,然后随机裁剪 512 × 256 512 \times 256 512×256进行训练。采用水平翻转,可能性为 50 % 50 \% 50%。我们使用小批量数据大小为9的模型进行训练,批量归一化层的参数也进行了微调。学习率设置为0.0001。在[ Zhao et al , 2017 , Zhang et al , 2019a , Zhang et al , 2020]之后,我们通过乘以因子 ( 1 −  iter   total-iter  ) 0.9 \left(1-\frac{\text { iter }}{\text { total-iter }}\right)^{0.9} (1 total-iter  iter )0.9来部署ploy学习率策略。总迭代次数设为100k次,采用提前停止策略。迭代50k后停止训练。在进行推理时,我们遵循[郑志刚、杨志刚, 2020]将两个分类器的输出进行组合作为最终结果。 Output = arg ⁡ max ⁡ ( F ( x t j ∣ θ t ) + =\arg \max \left(F\left(x_{t}^{j} | \theta_{t}\right)+\right. =argmax(F(xtjθt)+ 0.5 F a u x ( x t j ∣ θ t ) ) \left.0.5 F_{a u x}\left(x_{t}^{j} | \theta_{t}\right)\right) 0.5Faux(xtjθt))。我们的实现基于Pytorch [ Paszke等, 2017]。

在这里插入图片描述
在这里插入图片描述
图3:两个分类器,即主分类器和辅助分类器之间的预测方差示意图。具有模糊预测的区域获得了较大的预测方差。同时,我们可以观察到高方差区域与伪标签中的噪声有相当大的重叠。(最好在色彩上观看)
在这里插入图片描述

表1:GTA5 [里希特等, 2016]、辛西娅[ Ros等, 2016]、Cityscapes [ Cordts等, 2016]和Oxford RobotCar [马登等, 2017]四个数据集中图像的类别和数量列表。

4 Experiment

4.1 Datasets and Evaluation Metric

数据集。为了简化,我们将测试集表示为A→B,其中A表示有标记的源域,B表示无标记的目标域。我们在两个广泛使用的合成到真实基准测试集上对所提方法进行了评估:GTA5 [里希特等, 2016]→Cityscapes [ Cordts等, 2016]和辛西娅5 [ Ros等, 2016]→Cityscapes [ Cordts等, 2016]。源数据集GTA5和辛西娅均为人工合成数据集,相应的标注信息易于获取。具体来说,GTA5数据集是从一个视频游戏中收集的,其中包含24,966张图像用于训练。辛西娅数据集来自一个虚拟城市并附带像素级分割标注,包含9400张训练图像。真实数据集Cityscapes收集了50个不同城市的街景场景,其中包含2,975张训练图像和500张验证图像。此外,我们还评估了在跨城市基准测试中的性能,即Cityscapes [ Cordts等, 2016]→Oxford RobotCar [马登等, 2017]。我们在此设置中利用了Cityscapes训练图像的标注。Oxford RobotCar数据集作为无标签目标域,包含894张训练图像和271张验证图像。我们注意到,这种设定在不同的天气情况下具有挑战性。Oxford RobotCar在阴雨天采集,而Cityscapes数据集多在晴天采集。数据集之间的差异如表1所示。评价指标。我们报告了课前IoU和所有班级的平均IoU。对于辛西娅→Cityscapes,由于源数据集中标注的类别有限,我们报告了基于13个类别和16个类别的结果,其中3个小规模类别。对于Cityscapes→Oxford RobotCar,我们遵循[ Tsai等, 2019]中的设置,报告了9个预分类IoU以及mIoU精度。

4.2与现有方法的比较

合成到真实。我们将提出的方法与其他最近的语义分割自适应方法进行了比较,这些方法已经报告了结果,或者我们可以在三个基准上重新实现。为了公平比较,我们主要比较基于相同网络结构Deep Labv2的结果。竞争方法覆盖范围广泛,可以根据伪标签的使用情况大致分类:Adapt Seg Net [ Tsai等, 2018]、SIBAN [ Luo et al , 2019a]、CLAN [ Luo et al , 2019b]、APODA [ Yang et al , 2020]和Patch Align [ Tsai等, 2018]不利用伪标签,专注于对齐源域和目标域之间的分布;CBST [邹薇等, 2018]、MRKLD [ Zou et al , 2019]和我们实现的MRNet + Pseudo都是基于伪标签学习来充分挖掘未标记的目标域数据。
首先,我们考虑广泛使用的GTA5→Cityscapes基准。表2显示:( 1 )本文提出的方法获得了50.3 %的mIoU,优于其他方法。此外,所提出的方法在类前IoU方面也具有竞争性能。( 2 )与采用传统伪学习的基线MRNet + Pseudo ( 48.3 % m Io U )相比,本文方法( 50.3 % m Io U )提高了+ 2.0 % m Io U。验证了所提方法在纠正含噪伪标签学习中的有效性。方差正则化在实现这一结果中起着重要的作用;( 3 )同时,我们可以观察到提出的方法优于源域模型MRNet ( 45.5 % mIoU ),它提供了4.8 mIoU的伪标签。验证了伪标签学习促使模型对预测充满信心的有效性。如果大多数伪标签是正确的,则伪标签学习可以有效地提高目标域的性能。( 4 )本文提出的方法也以较大的优势超越了其他领域对齐方法。例如,改进的Adapt Seg Net,即Patch Align [ Tsai等, 2018],利用了图斑级别的信息,获得了46.5 %的收益,这比我们的结果差。( 5 )在不使用先验知识的情况下,所提方法也优于其他伪标签学习方法CBST [邹薇等, 2018]和MRKLD [ Zou et al , 2019]。CBST [邹薇等, 2018]引入了位置知识,例如天空总是在图像的上界。在本工作中,我们并没有应用这样的先验知识,但我们注意到先验知识与我们的方法是兼容的。
我们在辛西娅→Cityscapes (见表3)上观察到类似的结果。根据[ Zou et al , 2018 , Zou et al , 2019]中的设置,我们包括了13个类别和16个类别的mIoU结果,同时也计算了其他三个小规模目标的IoU,即Wall,Fence和Pole。该方法实现了16个类别的47.9 mIoU和13个类别的54.9 mIoU *。与基线MRNet + Pseudo相比,MRNet + Pseudo的mIoU和mIoU *分别提高了+ 1.4 %和+ 1.1 %。同时,所提方法也优于次优方法APODA [ Yang et al , 2020],1.8 % mIoU *。
跨城市。我们进一步在跨城市基准城市Cityscapes→Oxford RobotCar上对所提方法进行评估。源域和目标域数据集都是在真实场景下采集的。我们遵循[ Tsai等, 2019]中的设置来报告两个数据集之间共享的9个类别的IoU。如表4所示,本文方法达到74.4 % m Io U。与基准MRNet + Pseudo ( 73.9 % )相比,跨城市基准上的改进( + 0.5 % )相对有限。因此,基线MRNet + Pseudo也可以通过直接利用所有伪标签获得有竞争力的结果。此外,值得注意的是,本文方法达到了9个最佳预分类IoU精度中的6个,在交通标志类上达到了+ 5.7 %,属于小规模目标。
可视化。如图4所示,我们给出了语义分割自适应在三个基准上的定性结果。与源模型相比,伪标签学习可以显著提高性能。此外,与使用常规伪标签学习的基线方法相比,我们观察到所提出的方差正则化对小规模目标具有更好的可扩展性,例如交通标志和电线杆。这是因为带噪的伪标签通常包含了将稀有类别预测为常见类别即大规模目标的误差。本文提出的方法纠正了这种错误的学习,得到了更合理的分割预测。

4.3 Further Evaluations

方差正则化vs .手工制作的阈值。所提出的方差正则化不需要设定阈值。为了验证方差正则化的有效性,我们还比较了不同阈值下的常规伪标签学习。如表5所示,所提出的正则化达到了优于手工阈值的性能。这是由于方差正则化可以看作一个动态阈值,为同一幅图像中的不同像素提供不同的阈值。对于一致性预测,模型容易学习伪标签并最大化此类标签的影响。对于不相干的结果,模型容易出现自动忽略伪标签和最小化噪声标签的负面影响。人工设定的最佳阈值为忽略预测评分≤0.90的标签,得到48.4 %的m Io U。相比之下,本文方法以+ 1.9 %的增量实现了50.3 %的m Io U。
提出的方法能否对其他模型(例如,具有更多的噪声)生成的伪标签起作用?为了验证本文方法的可扩展性,采用Adapt Seg Net [ Tsai等, 2018]生成伪标签。Adapt Seg Net在GTA5→Cityscapes上的m Io U低于MRNet。如表6所示,本文方法仍然可以从Adapt Seg Net生成的标签中学习,性能从42.4 %提升到47.4 %。同时,本文方法也优于传统伪学习的基线方法( 46.8 % m Io U )。
培训衔接。如图6所示,传统的伪标签学习(橙色线)容易过拟合所有伪标签,包括噪声标签。因此,训练损失收敛到零。相比之下,所提出的方法(蓝线)也收敛,但并不强制损失为零。这是因为我们提供了方差正则化项,可以灵活地惩罚不确定伪标签的错误预测。
辍学的影响。本文方法对辍学率不太敏感。如表7所示,我们可以观察到两点:1 ) dropout函数并不是预测方差的主要原因。在没有Dropout函数( p = 0)的情况下,本文方法仍然可以达到49.6 % m Io U,优于传统的伪标签学习。2 )在给定丢包率的情况下,所提方法可以在50 % mIoU左右取得较好的效果。
高置信度预测的不确定性。我们对市景的高置信度预测进行方差分析。具体地,我们计算了置信度得分> 0.95的正确赋值和错误赋值预测的平均不确定性。这里我们使用方程12中的度量exp { - Dkl }来报告方差值。数值越大,不确定性越小。当错误分配高可信度标签的平均方差为0.9332时,正确分配高可信度标签的平均方差为0.9901。我们可以看到,正确分配的标签和错误分配的标签之间存在一个显著的方差差距,即使它们都达到了很高的置信度。该结果验证了方差值能够反映错误分配标签与正确分配标签之间的差异。
与Monte Carlo dropout的比较。蒙特卡洛Dropout ( MC-Dropout ) [ Gal和Ghahramani , 2016]在推理时激活dropout函数以获得各种预测。这里我们比较了所提方法和MC - Dropout对不确定性的表征能力。为了公平比较,我们只将aux分类器的预测用主分类器 F drop  F_{\text {drop }} Fdrop  替换为MC dropout率为{ 0.5,0.7,0.9 }。
D m c = E [ F ( x t j ∣ θ t ) log ⁡ ( F ( x t j ∣ θ t ) F d r o p ( x t j ∣ θ l ) ) ] D_{m c}=\mathbb{E}\left[F\left(x_{t}^{j} | \theta_{t}\right) \log \left(\frac{F\left(x_{t}^{j} | \theta_{t}\right)}{F_{d r o p}\left(x_{t}^{j} | \theta_{l}\right)}\right)\right] Dmc=E F(xtjθt)log Fdrop(xtjθl)F(xtjθt)
由于预测评分不能反映真实情况的不确定性,我们引入了一种新的度量指标- -不确定性差距。不确定性缺口是正确预测和错误预测的方差之差。一般而言,我们希望正确的预测获得低的不确定性值,而错误的预测获得高的不确定性值。在实际应用中,我们使用exp ( - D )将值保留在[ 0 , 1]中。如表8所示,所提方法获得了0.1357的方差间隙,以0.9的丢包率与MC - dropout相竞争。所提方法也是对MC - dropout的补充。所提出的MC - dropout方法可以进一步提升不确定性差距。同时,值得注意的是,该方法直接利用主分类器和辅助分类器的方差,无需多次推断,可以大大节省测试时间。
距离函数的影响。事实上,KL散度是方差计算的一个备选方案。我们可以交换主分类器和辅助分类器来计算距离或者使用均方误差( MSE )。这里我们增加了一个实验来比较常见的距离函数(见表9)。首先,我们可以观察到模型对距离度量不是很敏感,因为性能比较接近。第二,方法中使用的KL -散度略优于交换预测和MSE距离。

推断权重的影响。推理加权是结合主分类器和辅助分类器预测的一种实用技巧。一般来说,主分类器可以取得较好的性能,因此我们给主分类器的预测赋予较大的权重 α = 1 \alpha=1 α=1,给辅助分类器的预测赋予 β = 0.5 \beta=0.5 β=0.5。Output = arg ⁡ max ⁡ ( α F ( x t j ∣ θ t ) =\arg \max \left(\alpha F\left(x_{t}^{j} | \theta_{t}\right)\right. =argmax(αF(xtjθt) β F a u x ( x t j ∣ θ t ) ) \left.\beta F_{a u x}\left(x_{t}^{j} | \theta_{t}\right)\right) βFaux(xtjθt))。这种技巧可以略微提高最终的表现。这里我们在表10中提供了推断权重敏感性的消融研究。如果只部署主分类器 ( α = 1 , β = 0 ) (\alpha=1, \beta=0) (α=1,β=0),模型可以达到49.3 %的m Io U准确率。当我们结合两个分类器的预测时,性能可以提高约 1.0 % m I o U 1.0 \% \mathrm{mIoU} 1.0%mIoU
不确定性可视化。作为副产品,我们还可以在推断时估计预测不确定性。我们提供了可视化结果来显示不确定性估计和置信度评分之间的差异。如图5所示,我们观察到模型容易提供边界像素的低置信度评分,这并不能为模糊预测提供有效线索。相反,提出的预测方差反映了标签的不确定性,预测方差图中的高亮区域与错误预测有很多重叠。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值