2021_Self-supervised Augmentation Consistency for Adapting Semantic Segmentation

全文翻译如下:

摘要

我们提出了一种面向语义分割的领域自适应方法,该方法既实用又高度准确。与以前的工作不同,我们放弃了使用计算上涉及的对抗目标、网络集成和风格迁移。相反,我们使用标准的数据增强技术- -光度噪声、翻转和缩放- -并确保在这些图像转换中语义预测的一致性。我们在一个轻量级的自监督框架中发展了这一原理,该框架在共同进化伪标签上训练,而不需要繁琐的额外训练轮。从实践者的角度来看,简单的训练,我们的方法是非常有效的。我们实现了适应后的最新分割精度的显著提高,在不同的主干架构和适应场景的选择中都是一致的。

1. Introduction

无监督域适应( UDA )是半监督学习的一种变体[ 6 ],其中可用的未标记数据来自与已标注数据集不同的分布[ 4 ]。一个例子是利用合成数据,与现实世界图像[ 59、60]的昂贵的标签相比,注释更容易获得。在解决语义分割[ 67,69,80,91]的UDA方面取得了一些成功的同时,所开发的方法也越来越成熟,通常将风格迁移网络、对抗训练或网络集成[ 39、46、68、77]结合起来。这种模型复杂性的增加阻碍了可重复性,可能会减缓进一步的进展。
在这项工作中,我们提出了一个UDA框架,在不需要大量训练的情况下,达到了最先进的分割精度(通过Intersection - over - Union , IoU进行测量)。为了实现这个目标,我们采用了一种简单的半监督方法,自训练[ 12、42、91],在最近的工作中只与对抗训练或网络集成[ 17、39、54、70、80、86、87]结合使用。相比之下,我们使用自训练单机。与以往的自训练方法[ 9、43、65、91、92]相比,我们的方法还避免了多轮训练带来的不便,因为它们往往需要连续轮次之间的专家干预。我们使用端到端的协同演化伪标签来训练我们的模型,而不需要这样的需求。
我们的方法利用了全监督学习[ 11,85]中无处不在的数据增强技术:光度抖动、翻转和多尺度裁剪。我们确保模型生成的语义地图在这些图像扰动下具有一致性。以下假设将关键前提形式化:
假设1 .令 f : I → M f: \mathcal{I} \rightarrow \mathcal{M} f:IM 表示图像 I \mathcal{I} I到语义输出 M \mathcal{M} M的逐像素映射,记 ρ ϵ : I → I \rho_{\epsilon}: \mathcal{I} \rightarrow \mathcal{I} ρϵ:II为光度图像变换,同理, τ ϵ ′ : I → I \tau_{\epsilon{\prime}}: \mathcal{I} \rightarrow \mathcal{I} τϵ:II为空间相似变换,其中 ϵ , ϵ ′ ∼ p ( ⋅ ) \epsilon, \boldsymbol{\epsilon}{\prime} \sim p(\cdot) ϵ,ϵp()为遵循某种预定义密度(例如, p ≡ N ( 0 , 1 ) p \equiv \mathcal{N}(0,1) pN(0,1))的控制变量)。则对任意图像 I ∈ I , f I \in \mathcal{I}, f II,f ρ ϵ \rho_{\boldsymbol{\epsilon}} ρϵ 下不变,在 τ ϵ ′ \tau_{\boldsymbol{\epsilon}{\prime}} τϵ下等变,即 f ( τ ϵ ′ ( I ) ) = τ ϵ ′ ( f ( I ) ) f\left(\tau_{\epsilon{\prime}}(I)\right)=\tau_{\epsilon{\prime}}(f(I)) f(τϵ(I))=τϵ(f(I))
接下来,我们介绍一个使用动量网络的训练框架- -一个缓慢推进的原模型拷贝。
与模型蒸馏[ 15,86,87]中的固定监督不同,动量网络为模型更新提供了稳定的、最新的目标。我们还在生成伪标签进行自我监督的背景下重新讨论了长尾识别问题。特别地,我们保持了一个指数移动的类先验,用于折扣那些样本较少的类的置信度阈值,并增加它们对训练损失的相对贡献。我们的框架训练简单,与完全监督的设置相比增加了适度的计算开销,但在已建立的基准( cf .。图1)上设置了新的技术状态。

2 .相关工作

面向语义分割的场景自适应的大部分工作都受到了并行领域自适应( DA )和半监督学习图像分类[ 23、24、27、45、50]工作的影响。这些方法的主要思想是利用所谓的H∆H -散度来制定目标风险的上界[ 3 ]。简而言之,它通过一个二进制分类器来定义源和目标数据的边缘之间的差异。下面我们在语义分割的背景下简要回顾这一思想的实现变体。
学习Domain - Invariant表示。对抗特征对齐遵循GAN框架[ 24、26],以一定距离(例如中的沃瑟斯坦)最小化源和目标特征表示之间的差距。该判别器可以在多个尺度[ 15,67,77]上使用,并使用局部空间先验[ 83 ];它可以是有条件的[ 33 ]和类特定的[ 22、52],也可以是对齐"难"和"易"目标样本的特征[ 56 ]。通常,自监督损失,如熵最小化[ 69 ],或"保守损失" [ 90 ]有助于这种比对。
对抗特征对齐的替代方案是更具可解释性的约束,例如特征先验[ 51 ]、双射源-目标关联[ 37 ]或直接在图像空间中使用风格迁移[ 89 ]来对齐域,或者单独使用[ 74 ],或者最常见的是与对抗特征对齐[ 8、16、25、55、78、79、82]联合使用。风格翻译的一个问题是在外观变化的情况下保证语义的一致性。为了解决这个问题,Hoffman等[ 32 ]使用了语义和循环一致性损失,而Yang等[ 77 ]则从其标签空间表示重建原始图像。
由于这些方法需要同时训练一个或多个独立的网络,例如判别器或风格迁移网络,因此这些方法往往计算代价高昂且训练困难。尽管Yang和Soatto [ 80 ]通过将傅里叶变换后的目标图像的相位合并到源样本中,避免了对样式网络的需求,但是需要训练多个网络,每个网络都有自己预定义的相位带。
伪标签上的自训练。作为一种更轻量级的方法,自训练以高置信度的类预测的形式寻求高质量的伪监督。我们的工作属于这一类。以前的方法大多是预先计算标签"离线",然后用于更新模型,并重复这个过程几轮[ 43,65,91,92]。遵循这一策略的更近期的框架具有复合性质:它们依赖于对抗(预)训练[ 14、20、87]、风格翻译[ 17、80]或两者都是[ 54、46、39、70、73]。
对协同进化伪标签的训练可能在计算上不稳定,因此需要额外的正则化。Chen等[ 13 ]通过改进饱和点附近梯度的行为来最小化熵。使用固定的表示,无论是来自"冻结"的网络[ 15、87]、固定的全局[ 53 ]集合还是自生成的局部标签[ 47,68,81],都进一步提高了训练的鲁棒性。
过度自信的预测[ 28 ]对伪标签的质量有直接的影响。Zou等[ 92 ]通过类似于温度缩放的预测平滑对损失进行正则化,实现了一定程度的置信度校准[ 28 ]。将两个分类器的预测进行平均[ 86 ],或者使用基于Dropout的采样[ 7,88],达到了相同的目的。
空间先验。与DA用于分类不同,自适应方法用于分割的特点是使用空间先验。局部先验已经被强制执行成片的[ 15、47、68]和预计算的超像素形式的[ 81、83 ]。虽然也使用了全局空间先验[ 91 ],但它们的成功取决于当前基准中语义布局的相似性。
与我们的方法有关。如表1所示,我们的工作简化了训练过程。首先,我们不使用对抗训练,因为单独的特征不变性并不能保证标签不变性[ 36、84]。其次,我们用一轮共同演化的伪标签训练我们的模型。我们的框架类似于噪声均值教师[ 76 ],并将一致性正则化[ 2,61,64,75]与自集成[ 40、66 ]相结合。在医学影像[ 44、58]和并行UDA工作中也探索了类似的方法[ 71 ],但仅限于问题思考的允许范围。我们利用光度不变性、尺度和翻转等变性[ 72 ]来提取高保真的伪监督,而不是更昂贵的采样技术[ 38 ]。与文献[ 65 ]相反,我们发现仅有尺度不能预测标签质量,因此我们将多个尺度和翻转产生的预测进行平均。这与使用测试时间增强的不确定性估计[ 1 ]是平行的,但在训练时间[ 5 ]。
在这里插入图片描述

见表1。与艺术状态的关系。无论是VGG - 16 ( SOTA-VGG )还是Res Net-101 ( SOTA-Res Net ),前人的工作在Io U方面都达到了先进水平。我们的框架既不使用对抗训练,也不使用多轮训练(括号中给出),但在这两种情况下都优于现有技术。

3 .自监督增强一致性

3.1。框架概述

如图2a所示,我们的框架包括一个分割网络,我们打算适应一个目标域,它的缓慢变化的副本用一个动量更新,一个动量网络。为了进行自监督场景自适应,我们首先提供了从目标域的样本图像到两个网络的一批随机作物和水平翻转。对于每个像素,经过适当的逆空间变换后,我们从动量网络中平均预测(即语义掩码)。然后,我们通过使用基于运行统计的阈值从平均图中选择自信的像素来创建一个伪真实,这些像素能够适应单个样本。最后,分割网络使用随机梯度下降更新其参数w . r . t .这些伪标签。
我们的方法与均值教师框架[ 23,66]和时序集成框架[ 35、40]非常相似。然而,正如我们将要实证的那样,系综性质本身只起到辅助作用。更重要的是,类似于强化学习中的评价网络[ 48 ]和无监督学习中的动量编码器[ 30 ],我们的动量网络为分割网络的自监督训练提供了稳定的目标。这种观点使我们可以专注于目标生成的过程,详见下文。

3.2. Batch construction

对于每个采样的目标图像,我们生成N个具有随机尺度、翻转和位置的作物,但保留了长宽比。我们将作物和原始图像重标极差到固定的输入分辨率h × w,并将它们作为输入传递给网络。图2b展示了这一过程。遵循图像分类中的噪声学生模型[ 76 ],分割网络的输入额外经历了一个光度增强:我们添加随机颜色抖动并随机用高斯滤波器平滑图像。另一方面,动量网络收到一个"干净"的输入,即没有这种增强。这是为了鼓励模型对光度扰动的不变性。

3.3. Self-supervision

多尺度融合。我们将动量网络输出的掩模重新投影回原始的h × w大小的图像画布,如图2c所示。对于每个像素,重叠区域平均它们的预测。需要注意的是,有些像素可能位于作物外部,因此包含了与原始图像单次前向传递的结果。我们保持这些预测不变。然后利用合并后的地图提取伪掩码进行自我监督。
一个短的长尾插曲。处理稀有类(即只有少量训练样本的类)是众所周知的识别困难[ 29 ]。对于语义分割,我们区分了图像级(如"卡车"、"公交车"等)和像素级(例如’交通信号灯’、'杆子’等)频率较低的类。在产生自我监督的同时,我们特别注意这些情况,并鼓励( i )降低选择伪标签的阈值,( ii )增加对有焦点损失的梯度的贡献,以及( iii )使用重要性采样。接下来我们对这些进行详细的描述。
基于样本的移动阈值。以往的自训练工作大多采用多轮训练,需要中断训练过程并重新生成伪标签[ 43、46、54、65、91]。原因之一是需要重新计算阈值过滤伪标签进行监督,这就需要遍历模型参数固定的完整目标数据集的预测。为了实现我们的目标,即在没有专家干预的情况下实现端到端的训练,我们采取了不同的方法,并计算了阈值。作为主要成分,我们保持了指数移动的类先验。具体来说,对于动量网络的每个softmax预测,我们首先计算样本n中的一个像素属于c类的概率的先验估计
χ c , n = 1 h w ∑ i , j m c , n , i , j \chi_{c, n}=\frac{1}{h w} \sum_{i, j} m_{c, n, i, j} χc,n=hw1i,jmc,n,i,j
其中 m c , n , ; ,  is  m_{c, n, ;, \text { is }} mc,n,;, is 是c类(分辨率为 h × w h \times w h×w)的掩码预测。我们在每次训练迭代 t t t后保持动量 γ χ ∈ [ 0 , 1 ] \gamma_{\chi} \in[0,1] γχ[0,1]的指数移动平均:
χ c t + 1 = γ χ χ c t + ( 1 − γ χ ) χ c , n . \chi_{c}^{t+1}=\gamma_{\chi} \chi_{c}^{t}+\left(1-\gamma_{\chi}\right) \chi_{c, n} . χct+1=γχχct+(1γχ)χc,n.
我们的基于样本的移动阈值 θ c , n \theta_{c, n} θc,n在移动先验 χ c ≈ 0 \chi_{c} \approx 0 χc0 (即对于长尾类)时取较小值,但在 χ c → 1 \chi_{c} \rightarrow 1 χc1时有界。我们将其定义为
θ c , n = ζ ( 1 − e − χ c / β ) m c , n ∗ , \theta_{c, n}=\zeta\left(1-e^{-\chi_{c} / \beta}\right) m_{c, n}^{*}, θc,n=ζ(1eχc/β)mc,n,
其中 β \beta β ζ \zeta ζ是超参数, m c , n ∗ m_{c, n}^{*} mc,n c c c类的预测峰值置信度,即。
m c , n ∗ = max ⁡ i , j m c , n , i , j m_{c, n}^{*}=\max _{i, j} m_{c, n, i, j} mc,n=i,jmaxmc,n,i,j
图3样地Eq . ( 3 )作为移动类先验 χ c \chi_{c} χc的函数,用于选择β。对于主导类(例如, ’ road '),指数项几乎没有影响;阈值为静态w . r . t .峰值类置信度,即 θ c , n ≈ ζ m c , n ∗ \theta_{c, n} \approx \zeta m_{c, n}^{*} θc,nζmc,n。然而,对于 χ c ≈ β \chi_{c} \approx \beta χcβ的长尾类,阈值低于这个上界,因此选择更多的像素进行监督。为了获得伪标签,我们将阈值 θ c , n \theta_{c, n} θc,n 应用于动量网络合并输出的峰值预测:
m ^ n , i , j = { c ∗ m c ∗ , n , i , j > θ c , n  ignore   otherwise  \hat{m}_{n, i, j}=\left\{\begin{array}{ll} c^{*} & m_{c^{*}, n, i, j}>\theta_{c, n} \\ \text { ignore } & \text { otherwise } \end{array}\right. m^n,i,j={c ignore mc,n,i,j>θc,n otherwise 
其中 c ∗ = arg ⁡ max ⁡ c m c , n , i , j c^{*}=\arg \max _{c} m_{c, n, i, j} c=argmaxcmc,n,i,j是该像素的主导类。注意,置信值低于阈值的像素,以及非主导预测,在自监督损失中会被忽略。
置信度正则化的焦点损失。我们的损失函数引入了焦乘子[ 49 ]来进一步增加梯度信号中长尾类的贡献。然而,与以前的工作[ 49,65]不同,我们的移动类先验 χ c \chi_{c} χc调节焦点项:
L n ℓ ( m ˉ , m ∣ ϕ ) = − m c ∗ , n ( 1 − χ c ∗ ) λ log ⁡ ( m ˉ c ∗ , n ) \mathcal{L}_{n}^{\ell}(\bar{m}, m | \phi)=-m_{c^{*}, n}\left(1-\chi_{c^{*}}\right)^{\lambda} \log \left(\bar{m}_{c^{*}, n}\right) Ln(mˉ,mϕ)=mc,n(1χc)λlog(mˉc,n)
其中, m ˉ \bar{m} mˉ是参数为 ϕ \phi ϕ的分割网络的预测,伪标签 c ∗ c^{*} c来源于公式中的 m ^ \hat{m} m^。( 5 )式中, λ \lambda λ 为焦项超参数。回想一下, χ c \chi_{c} χc 的低值意味着长尾类别,因此应该有更高的权重。高的 λ \lambda λ (即> 1)会增加长尾类的相对权重,而设置 λ = 0 \lambda=0 λ=0 则会使焦点项失效。注意,我们也用动量网络的置信值 m c ∗ , n m_{c^{*}, n} mc,n (公式4 )来正则化我们的损失。如果出现不正确的伪标签,我们期望这种置信度较低,并通过多尺度融合对其进行校准,从而使训练正则化。我们将等式中的损失最小化。( 6 ),对每个像素应用w . r . t . ϕ \phi ϕ.

3 . 4 .仅有源损失的训练预训练。

在[ 47、83]之后,我们使用Adaptive Batch标准化( ABN ) [ 45 ]在分割任务上通过最小化源数据上的交叉熵损失来启动我们的模型。在实验中,我们发现只在训练结束时重新计算均值和标准差是不必要的。相反,在预训练中我们交替批次的源图像和目标图像,但忽略了后者的损失。对于目标批次,这意味着更新批次标准化( BN ) [ 34 ]层中的运行均值和标准差,并保持其余模型参数不变。
重要性抽样。我们的损失函数为( 6 )对于图像频率较高的长尾类(例如’交通信号灯’、'杆子’等),对于仅出现在少数样本(如"公交车"、“火车"等)中的类可能不起作用。为了缓解这种不平衡,我们使用重要性采样[ 21 ]并增加这些长尾类的样本频率。我们通过使用密度 p t p_{t} pt对目标图像进行重采样来最小化预期目标损失:
min ⁡ ϕ E n ∼ p t [ L n t ( ϕ ) ] \min _{\phi} \mathbb{E}_{n \sim p_{t}}\left[\mathcal{L}_{n}^{t}(\phi)\right] ϕminEnpt[Lnt(ϕ)]
为了获得 p t p_{t} pt,我们使用预训练的分割网络,并使用公式预先计算每幅图像n的类别先验估计值 χ c , n \chi_{c, n} χc,n。( 1 ) .在训练时,我们( i )均匀地采样一个语义类 c c c,然后( ii )以概率获得一个目标样本 l l l
χ ^ c , l = χ c , l ∑ n χ c , n . \hat{\chi}_{c, l}=\frac{\chi_{c, l}}{\sum_{n} \chi_{c, n}} . χ^c,l=nχc,nχc,l.
这样的两步采样过程保证了所有图像都有非零的样本概率,这是由于所有 l l l(例如,城市场景中的"路”)的流行类( χ ^ c , l > 0 \hat{\chi}_{c, l}>0 χ^c,l>0 )。
联合目标源训练。我们使用源数据的交叉熵损失和从 p t p_{t} pt采样的目标数据的焦点损失来训练随机梯度下降的分割网络,如公式所定义。( 6 )和( 7 ) .图4展示了伪标签的合成。我们周期性地更新动量网络的参数 ψ \psi ψ
ψ t + 1 = γ ψ ψ t + ( 1 − γ ψ ) ϕ , \psi_{t+1}=\gamma_{\psi} \psi_{t}+\left(1-\gamma_{\psi}\right) \phi, ψt+1=γψψt+(1γψ)ϕ,
式中: ϕ \phi ϕ为分割网络的参数, γ ψ \gamma_{\psi} γψ调节更新的速度:低值导致更快但不稳定的训练,而高 γ ψ \gamma_{\psi} γψ导致早熟和次优收敛。我们保持 γ ψ \gamma_{\psi} γψ适中,但仅每T次迭代更新动量网络。
在这里插入图片描述

见图3。基于样本的移动阈值。我们的阈值方案有两个超参数, ζ \zeta ζ β \beta β。在这个例子中, m c , n ∗ = 1 m_{c, n}^{*}=1 mc,n=1 ζ = 0.75 \zeta=0.75 ζ=0.75.优势类(例如, ’ road ')有 χ c ≫ 0 \chi_{c} \gg 0 χc0,因此它们的阈值近似为 ζ m c , n ∗ \zeta m_{c, n}^{*} ζmc,n长尾类(例如, “交通灯”)的 χ c ≈ 0 \chi_{c} \approx 0 χc0 ,其阈值进一步降低,陡度由 β \beta β (见Eq . 3 )控制。
在这里插入图片描述
见图4。自我监督榜样。在该图像样本( a )及其作物中,分割网络( b )倾向于将"摩托车"误认为"自行车"。动量网络( c )在这个预测上有所改进,但仍然可能产生不一致的标记。对多个尺度上的预测进行平均( d )可以纠正这种不一致,从而产生高精度的伪标签( e )用于自我监督。

4 .实验数据集。

在我们的实验中,我们使用了三个数据集。Cityscapes数据集[ 18 ]包含来自真实交通场景的2048 × 1024张图像,分为2975张用于训练,500张用于验证。GTA5数据集[ 59 ]包含24 966个合成场景,分辨率为1914 × 1052,通过GTA5游戏引擎进行逐像素标注。我们还使用了辛西娅数据集的辛西娅- RAND - CITYSCAPES子集[ 60 ],该数据集包含9400张分辨率为1280 × 760的合成图像,并提供了与Cityscapes兼容的语义标注。
设置。我们采用了前期工作[ 47,67,69]中建立的评估协议。以GTA5 [ 59 ]和辛西娅[ 60 ]合成的交通场景作为源数据,以Cityscapes数据集中的真实图像作为目标(显然忽略了可用的语义标签)。这就产生了两种根据源数据选择的领域适配场景:GTA5→Cityscapes和辛西娅→Cityscapes。与以前的工作一样,在训练时我们只使用Cityscapes数据集的训练片段,并在验证片段上报告结果。用每类交并比( Intersection-overUnion,IoU )及其平均值( mean IoU,mIoU )衡量分割精度。

4.1. Implementation details

我们在PyTorch [ 57 ]中实现了我们的框架。我们采用DeepLabv2 [ 10 ]作为分割架构,并在最近的工作[ 39,67,68,69,73]的基础上,使用ResNet - 101 [ 31 ]和VGG16 [ 63 ]两个主干网络来评估我们的方法。两个主干都是从ImageNet预训练的模型中初始化的[ 19 ]。我们首先使用SyncBN [ 57 ]实现的ABN [ 45 ] ( cf .。Sec . 3.4 )在大小为640 × 640且批大小为16的多尺度作物上训练模型。接下来,使用自监督目标损失( cf .。Sec . 3.3 )和冻结的BatchNorm层[ 34 ]进行训练。批处理大小为16,包含8幅源图像和8幅目标图像,分辨率为1024 × 512,这是[ 70、80]的常用做法。目标批次仅包含2个图像样本,每个(即. Sec中N = 3。3.2 )包含3个随机作物,降尺度至0.5。作为光度噪声,我们使用颜色抖动、随机模糊和灰度(详见附录B)。优化采用SGD,恒定学习率为2.5 × 10-4,动量为0.9,权重衰减为5 × 10 - 4。我们在交替的源-目标前传中积累梯度,以保持对记忆足迹的检查。由于式( 2 )中的焦点项。( 6 )降低了目标损失的幅度w . r . t .源损失,我们将其放大了5 ( VGG-16 2)倍。我们在两个TITAN X GPU ( 12GB )上训练我们的VGG框架,而基于ResNet的变体需要四个。这与最近的工作(例如, FADA 需要4 Tesla P40 GPU和24GB内存)相比大大降低了要求。值得注意的是,动量网络始终处于评价模式,梯度追踪失效,因此仅增加了约35 %的内存开销。对于动量网络,我们在所有实验中固定 γ ψ = 0.99 \gamma_{\psi}=0.99 γψ=0.99和T = 100。对于其他超参数,我们取 γ χ = 0.99 \gamma_{\chi}=0.99 γχ=0.99, ζ = 0.75 , β = 1 0 − 3 \zeta=0.75, \beta=10^{-3} ζ=0.75,β=103 λ = 3 \lambda=3 λ=3。附录C.2给出了超参数选择的进一步细节,以及我们的框架w . r . t . ζ \zeta ζ and β \beta β的敏感性分析。该推断遵循在原始图像分辨率下,单次前向通过分割网络的通常过程,无需任何后处理。

4 . 2 .与现状的比较

我们在表2中的GTA5→Cityscapes和表3中的辛西娅→Cityscapes两个域适应场景上比较了我们的方法与现状。为了进行公平的比较,所有的数字都起源于单尺度推断。在这两种情况下,我们的方法,记为SAC ( “自监督增强一致性”),大大优于我们的基准(即带ABN的源-唯一损失模型,见Sec . 3.4 ),并且实际上在mIoU方面设置了新的技术状态。重要的是,虽然先前工作的排名取决于骨干选择和源数据,但我们在所有设置中都一致达到了最高排名。
Gta5→城市风貌(表2 )。我们的方法在VGG - 16和ResNet - 101主干上分别取得了+ 3.4 %和+ 1.2 %的最佳公开结果[ 55、83 ]。需要指出的是,RPT [ 83 ]和SA - I2I [ 55 ]的模型复杂度要高得多。RPT [ 83 ]使用PSPNet [ 85 ],在全监督设置(例如, PASCAL VOC上的+ 5.7 % IoU [ 85 ])中,PSPNet比Deep Labv2具有更高的上界;这需要提取超像素并训练一个编码器-解码器LSTM,从而增加模型容量和计算开销。SA-I2I [ 55 ]从一个更强的基线BDL [ 46 ]初始化,依赖于风格迁移网络和对抗训练。而RPT [ 83 ]和SA - I2I [ 55 ]都需要多轮训练,分别为3和6个(引自BDL ),我们在单遍中进行目标损失训练。值得注意的是,与之前使用Res Net评估VGG的最佳方法SA - I2I [ 55 ]相比,我们使用Res Net - 101的改进是显著的,+ 3.4 %,并且与VGG - 16上的相应差值相当。
辛西娅→城市风貌(表3 )。这里,结果与前面的情景一致。我们的方法在两个主干上都达到了最先进的精度,在VGG - 16和ResNet - 101主干上比以前发表的最佳结果[ 55、83 ]提高了7.6 %和1.4 %。此外,我们使用ResNet - 101的方法比之前最好的方法PyCDA [ 47 ]高出5.9 % IoU。
值得注意的是,在这两种情况下,我们的方法与许多最近的工作[ 65、70、77]相比更准确或更有竞争力,即使使用较弱的主干,即。VGG - 16代替ResNet - 101。这是很有意义的,因为与以前的工作相比,这些改进不是由于训练复杂度或模型容量的增加。其他结果,包括对Cityscapes测试的评价,见附录C和D。

4 . 3 .消融研究

为了理解是什么使我们的框架有效,我们使用VGG - 16主干的GTA5→Cityscapes设置进行消融研究。我们独立地关闭每个组件,并将结果报告在表4中。我们发现增强一致性和动量网络两个成分起到了至关重要的作用。禁用动量网络导致6.4 %的IoU下降,而取消增强一致性导致8.0 %的IoU下降。
回想一下,增强一致性包含3种增强技术:光度噪声、多尺度融合和随机翻转。我们进一步评估他们各自的贡献。与禁用多尺度融合( -2.6 % )或翻转( -0.6 % )相比,没有光度抖动的训练对Io U的恶化更严重,为3.9 %。我们假设,鼓励模型对光度噪声的鲁棒性额外缓解了源域继承的依赖于强外观线索(例如,颜色和纹理)的归纳偏差,这种偏差可以与目标域产生实质性差异。
根据高置信度预测应该被优先考虑的直觉[ 65 ],我们研究了多尺度融合的另一种实现。对于重叠像素,我们不是对预测进行平均,而是将预测与最小熵进行池化。精度下降1.9 %是有一定预期的。通过数据增强的平均预测已经被证明可以产生良好校准的不确定性估计[ 1 ]。这对于我们的方法是很重要的,因为它依赖于置信值来选择用于自我监督的预测。重要性采样对总精度的贡献为1.5 % IoU。尽管我们的估计结果χ c,l仅为( cf .。Sec . 3.4 )的近似值,但总体效益与前人工作一致[ 29 ]。回想从公式( 2 ) . ( 3 )我们的置信度阈值是按类计算的,以鼓励长尾类的低值。禁用该方案等价于在等式中令 β → 0 \beta \rightarrow 0 β0。( 3 ),使平均IoU降低了1.7 %。这证实了我们的观察,即对于仅占少数像素的类别,模型倾向于预测较低的置信度。同理可得( 6 )无焦项 ( λ = 0 ) (\lambda=0) (λ=0) 和置信度正则化 ( m c ∗ , n = 1 ) \left(m_{c^{*}, n}=1\right) (mc,n=1)分别低2.4 %和1.6 % IoU。这在可忽略的计算成本下是一个惊人的重大贡献。

4 . 4 .定性评估

图5给出了几个定性示例,将我们的方法与原始基线(即带有ABN的仅源损失)进行了比较。尤其突出的是对"道路"、“人行道"和"天空"等类的细化,但即使是小尺度的要素也使(如最左列的"人”、“栅栏”)有了大幅度的提升。这也许并不奇怪,因为我们的多尺度训练和阈值技术,最初忽略了自我监督(因为他们最初倾向于低信心)中错误预测的像素。值得注意的是,尽管我们的框架没有明确的空间先验编码,但段边界往往与图像中的对象边界很好地对齐,而这在以前被认为是必要的[ 15,68,81,83]。我们认为,通过数据增强来增强语义一致性使得我们的方法不容易出现上下文偏差[ 62 ],这通常归咎于粗糙的边界。
在这里插入图片描述

表2 . GTA5→Cityscapes适配度的每类Io U ( % )比较,在Cityscapes验证集上进行评估。
在这里插入图片描述

表3 .辛西娅→Cityscapes适配度的每类Io U ( % )比较,在Cityscapes验证集上进行评价。
在这里插入图片描述

表4 .消融研究。我们使用基于VGG模型的GTA5→Cityscapes设置,通过逐个移除各个组件来研究我们框架的组件效果。我们报告了Cityscapes验证分割的平均IoU。

5 .结论

我们提出了一种简单而精确的语义分割领域自适应方法。通过普通的增强技术和动量更新,我们达到了最先进的精度,但没有牺牲适度的训练或模型复杂度。我们的框架中没有任何组件是严格专业化的;他们建立在一个相对较弱且广泛适用的假设( cf .。Sec . 1 )之上。尽管这项工作的重点是语义分割,但我们热衷于探索所提出的技术对于适应其他稠密预测任务的潜力,例如光流、单目深度、全景和实例分割,甚至这些多重任务的组合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值