原文链接:DECON 损失与 OpenReMix | BUS 准确区分已知类别和未知类别之间的边界!
Abstract:无监督域适应(Unsupervised domain adaptation,UDA)用于语义分割旨在将像素级的知识从带标签的源域传递到未带标签的目标域。然而,当前的UDA方法通常假设源域和目标域之间有一个共享的标签空间,这在目标域可能涌现出新类别的现实世界中限制了它们的应用性。在本文中,作者首次引入了针对语义分割的开放集域适应(Open-Set Domain Adaptation for Semantic Segmentation,OSDA-SS),其中目标域包含未知类别。作者确定了在OSDA-SS场景中的两个主要问题如下:1)现有的UDA方法难以预测未知类别的确切边界;2)它们无法准确预测未知类别的形状。为了解决这些问题,作者提出了一个名为Boundary and Unknown Shape-Aware(边界和未知形状感知)的开放集域适应方法,简称BUS。作者的BUS能够以对比的方式准确区分已知类别和未知类别之间的边界,使用一种新颖的基于膨胀-侵蚀的对比损失。此外,作者提出了一种新的域混合增强方法OpenReMix,该方法指导作者的模型有效地学习域和大小不变特征,以改善已知类别和未知类别的形状检测。
通过大量实验,作者证明,与之前的方法相比,作者提出的BUS在具有挑战性的OSDA-SS场景中有效地检测未知类别,取得了很大的优势。代码可在https://github.com/KHU-AGI/BUS获取。
1 Introduction
在语义分割中,模型根据输入的图像预测像素级的类别标签。语义分割在许多应用中都非常重要,例如自动驾驶[1],人机交互[2]和增强现实。在过去的十年里,基于深度神经网络的监督语义分割已经取得了显著进展[3, 4, 5, 6]。然而,监督语义分割需要像素级的标注,这些标注收集起来既费时又费力。为了减轻这一挑战,无监督领域自适应(UDA)应运而生。许多研究[7, 8, 9, 10, 11, 12]利用已经标注的源数据,在未标注的目标数据上实现了高性能。值得注意的是,像GTA5[13]和SYNTHIA[14]这样的合成数据集,由游戏引擎自动生成,为UDA研究提供了宝贵的资源。
UDA方法通常假设源域和目标域共享相同的标签空间。但在现实世界的应用中,这种假设并不总是合理。在本文中,作者解决了开放集领域自适应语义分割(OSDA-SS)这一有趣且具有挑战性的问题。在这里,作者处理的源数据是带标签的,而目标数据包含未在源域中见过的类别。在OSDA-SS设置中,作者的目标是精确预测目标域中的像素级类别标签,并正确区分在训练期间未见过的类别。
一种合理的方法是扩展已经建立的UDA方法。一种可能的基准是置信度阈值基准。作者通过使用UDA算法,不考虑目标私有的类别,来训练模型。在推理过程中,作者将置信度分数低于预定阈值的像素标识为“未知”。作者展示了从置信度阈值基准得出的预测分割图,如图1(c)所示。另一种基准可能是 Head 扩展基准。作者将分类头从C扩展到C+1维,其中C表示已知类别的数量。在训练过程中,生成伪标签时,作者将低于特定阈值的像素置信度分数分配给(C+1)-th Head ,并用伪标签进行训练。作者展示了从 Head 扩展基准得出的预测分割图,如图1(d)所示。这些基准有时会错误地将目标私有的类别判定为“未知”,但它们通常不会这样做,这导致了在目标数据集上的性能不佳。
在本工作中,作者在 Head 扩展的 Baseline 模型上构建了一个模型。作者发现 Baseline 的两个失效模式,并提出了一种新颖的边界和未知形状感知(Boundary and Unknown Shape-Aware,简称BUS)OSDA-SS方法。首先,由于监督不足,先前模型通常在物体边界附近不太自信甚至失效[19, 20, 21]。为了解决这个问题,作者提出了一种新的基于膨胀-侵蚀的对比(Dilation-Erosion-based CONtrastive,简称DECON)损失,通过形态学操作,特别是膨胀和侵蚀来显现边界。给定一个目标图像,作者使用扩展 Head 进行伪标记生成目标私有 Mask 。随后,作者通过从膨胀的私有 Mask 中减去原始私有 Mask 来生成边界 Mask ,指示边界附近_已知_类的区域。作者通过对私有 Mask 进行侵蚀生成侵蚀 Mask ,指示_私有类_的更自信区域。然后,作者以对比方式训练模型,使用侵蚀 Mask 和边界 Mask 的特征分别作为正样本和负样本。通过DECON损失,作者的模型能够清晰地区分边界附近的共有类和私有类。
其次, Baseline 模型在准确预测_未知_的形状方面面临挑战。如果模型在大小变化时始终预测相同的物体,这表明模型在识别物体时更依赖于形状信息而不是大小信息。受到这一启发,作者提出了一种新的数据混合增强方法,OpenReMix。该方法包括以下步骤:1) 从源图像中调整一个随机物类的尺寸,并在训练期间将其与目标图像混合,以便在大小变化时也能一致地预测相同的物体。此外,由于源图像中没有_未知_类,2) 作者从目标图像中剪掉被预测为_未知_的部分,并将其粘贴到源图像中,为(C+1)-th头提供辅助学习,帮助在源训练期间拒绝_未知_。这种精细的混合策略显著增强了_未知_的检测能力,特别强调捕捉形状信息。通过解决失效模式,提出的BUS在公共基准测试上取得了显著的性能提升:GTA5 Cityscapes 和 SYNTHIA Cityscapes。
作者的主要贡献总结如下:
- 据作者所知,作者首次提出了一项新的任务,即开放式集合域自适应语义分割(OSDA-SS)。为了应对这项具有挑战性的任务,作者提出了一种新颖的边界和未知形状感知OSDA-SS方法,命名为BUS。
- 作者引入了DECON损失,这是一种基于膨胀-侵蚀的新型对比损失,用以解决类别边界附近预测不够自信和错误的问题。
- 作者提出了OpenReMix,它引导作者的模型学习大小不变的特征,并有效地利用目标域中的未知目标来训练扩展头。OpenReMix鼓励作者的模型关注未知类别的形状信息。
- 作者进行了大量实验来验证作者提出方法的有效性。在公共基准数据集上,所提出的BUS展示了具有显著优势的最先进性能。
2 Related Work
2.1 Semantic Segmentation.
语义分割,即从输入图像预测像素级的标签,在过去的十年里取得了显著的进展。关键的发展包括全卷积网络(FCNs)[3],膨胀卷积[4, 5],全局池化[22],金字塔池化[23, 24, 25],以及注意力机制[26, 27, 28, 29]。尽管这些方法取得了成功,但它们通常依赖于大量标注数据,而这些数据的标注工作是劳动密集型的,收集成本高昂。相比之下,作者将语义分割问题表述为域适应问题,以减轻标注成本。
2.2 Unsupervised Domain Adaptation for Semantic Segmentation
近期,关于语义分割的无监督域自适应(UDA)研究工作大量涌现。语义分割的UDA方法通常分为两类:基于对抗学习和自训练的方法。基于对抗学习的方法利用对抗域分类器来学习域不变表示,旨在欺骗域分类器。自训练方法为目标域图像中的每个像素通过置信度阈值创建伪标签。几种自训练方法迭代地重新训练模型,这导致了在目标域上的性能提升。尽管取得了巨大成功,但大多数先前的工作假设了一个封闭集设置,其中源域和目标域共享相同的标签空间。在这项工作中,作者放宽了这个不切实际的假设,并解决了开放集域自适应语义分割(OSDA-SS)的问题。据作者所知,目前还没有工作解决这一问题。
2.3 Open-Set Domain Adaptation
开集域自适应(OSDA)将无监督域自适应(UDA)扩展到处理目标域中源域中不存在的全新类别。OSDA的主要目标是有效地将未知类别与已知类别区分开来,同时减少源域与目标域之间的域差距。已经提出了几种针对分类任务的OSDA方法。然而,在需要比分类更高程度空间信息的语义分割任务中,直接应用分类方法难以有效地区分未知类别。与作者的方法最相似的工作[48]也处理源域中不存在的新类别。但是,它访问预定义的私有类别定义。为了应对这一挑战,作者提出了一种新颖的OSDA-SS任务,以区分未知类别,而无需了解任何关于预定义类别定义的信息。
2.4 Domain Mixing Augmentation.
为了提高深度神经网络的泛化能力,提出了mixup [49, 50]及其变体。特别是,域混合增强在UDA 中通过利用域混合图像作为训练数据,以鼓励学习域不变的特征表示,展示了显著的性能提升。作者提出了OpenReMix,旨在使作者的模型能够捕捉形状信息,特别是对于未知类。
3 Method
3.1 Problem Formulation
在本节中,作者首次提出了一个新颖的OSDA-SS任务。在OSDA-SS中,网络被训练以处理源图像 及其对应的标签 ,以确保在无标签的目标域 中也能有效执行。 和 分别代表第 个源域图像和像素级标签。H 和 W 分别是图像的高度和宽度,而 C 表示源域中的类别数量。在目标域中,作者仅拥有图像 而没有相应的标签。源域和目标域共享 C 个类别,而目标域还有额外的未知类别,即目标图像中包含未知目标。在这种设置下,OSDA-SS的目标是使用带标签的源数据 (Xs,Ys) 和未标签的目标数据 Xt 训练一个分割模型 ,最终学得的模型 应该能够在目标域上很好地预测已知类别和未知类别。
3.2 Baseline
受到基于自训练的UDA方法的启发[10, 11, 44, 12],作者将分类器头数量从C扩展到C+1,构建了一个OSDA-SS Baseline ,其中(C+1)-th头对应于_unknown_类别。分割网络使用以下源数据标记的类别交叉熵损失进行训练:其中表示像素索引,表示类别索引。为了减轻源域和目标域之间的域差距, Baseline 采用一个教师网络生成目标伪标签。考虑_unknown_的j-th像素的伪标签按以下方式获得:
其中表示属于已知类别的类别,是一个阈值。使用上述方程,当最大softmax概率低于时,作者将不够确定的像素分配为_unknown_类别。由于作者不能完全信任上述伪标签,因此作者通过利用确定像素的比例[44]来估计伪标签的置信度。为此,作者统计最大概率值超过某个阈值的像素数,如下所示:其中表示图像伪标签的置信度。网络使用伪标签及相应的置信度估计,以下面的类别交叉熵损失进行训练:
最后,作者使用指数移动平均(EMA)[63]和一个平滑因子,在第(t+1)次迭代时从更新教师网络,方程如下所示:
基于此 Baseline ,作者提出了一种新颖的Boundary and Unknown Shape-Aware OSDA方法,名为BUS,该方法包含一个新的损失函数以显示已知和未知类别的边界(见第3.3节)以及一个新的域混合增强方法以鲁棒地检测未知目标的形状(见第3.4节)。
3.3 Dilation-Erosion-based Contrastive Loss
语义分割模型通常在自信地预测目标边界时遇到困难,尤其是对于目标私有类别,由于标签信息的缺失使得边界预测更加具有挑战性。由于模型用低置信度估计来预测边界,因此生成的伪标签的质量可能不够准确。如果模型能够自信地识别未知类别的边界,那么对未知类别的准确预测也就成为可能。
为了有效地辨别边界,作者利用了两种形态学操作:膨胀和侵蚀。首先,作者使用目标图像的伪标签来创建以下的目标私有 Mask :
其中 j 表示像素索引。接下来,作者对随机裁剪的目标私有 Mask 应用膨胀函数 和侵蚀函数 ,生成膨胀和侵蚀 Mask 。在膨胀 Mask 中,作者减去原始的目标私有 Mask 以识别靠近边界的常见类别的区域。另一方面,侵蚀 Mask 强调那些明确属于私有类的区域。作者通过以下方程生成这些 Mask :
其中 , 是随机裁剪的函数。和 分别表示代表常见部分和私有部分的 Mask 。为了构建对比损失,作者使用这些 Mask 生成 Anchor 点、正样本和负样本:
图2:作者提出的边界和未知形状感知(BUS)方法的概述。作者从OpenReMix生成混合源图像 和混合目标图像 。模型使用混合源标签和混合目标伪标签进行训练,分别使用监督损失和自适应损失。特别是,扩展头使用在伪标签中预测为未知的部分进行训练。伪标签通过阈值化softmax概率并通过细化网络生成。DECON损失利用膨胀和侵蚀操作来区分边界附近的已知和未知类别。
3.4 OpenReMix
调整目标大小。作者发现 Head 扩展的 Baseline 模型无法准确预测私有类别的形状。作者假设如果一个模型在大小变化的情况下始终预测相同的目标,那么该模型也能准确预测目标的形状。为此,作者扩展了域混合方法Classmix [51],它从源域中选择一半的类别,并将它们附加到目标图像上以学习域不变特征。
在Classmix的基础上,作者引入了一个额外的步骤,即从源图像中再选择一个事物类别,调整其大小,并将其粘贴到带有调整大小目标 Mask 的目标图像的随机位置上。混合的目标图像包含与源图像相同的目标,但目标的大小不同。因此,模型不仅从混合目标图像和源图像中学习域不变表示,还学习大小不变表示。这种扩展增强了模型对大小变化的鲁棒性,有助于准确预测未知类别的形状,从而带来更优的开集域适应性能。
附加私有类别。如第3.2节所述,为了处理目标私有类别,作者扩展了分割 Head 。扩展的 Head 使用包含私有标签的目标伪标签进行训练。然而,由于源图像中没有私有类别,作者不能利用源数据来更新模型的附加 Head 。为了克服这种训练中的低效,作者复制了目标私有类别的部分,并将其粘贴到源图像中。给定一个目标图像,作者按照方程式(6)创建一个目标私有 Mask 。使用目标私有 Mask ,作者将目标图像中的私有区域复制到源图像中,从而得到一个混合了私有类别的源图像。同样,通过结合源标签和目标的伪标签,作者生成了混合源标签。这种增强为训练提供了一个大得多的数据集,以拒绝私有类别,从而改善了开集域适应性能。作者以下列方式形式化附加私有过程:作者使用以下方程生成混合源图像及其对应的源标签:
其中和分别表示目标图像及其伪标签。混合图像和混合标签应用于方程式(1),代替源图像及其对应标签。
4 Experiments
4.1. Experimental Setup
数据集。作者在两个具有挑战性的自动驾驶合成到真实场景中评估了作者的框架,即GTA5 Cityscapes和SYNTHIA Cityscapes。GTA5 [13]是一个合成数据集,包含24,966张分辨率为的图像。SYNTHIA [14]也是一个合成数据集,包含9,400张分辨率为的图像。Cityscapes [65]是一个真实图像数据集,包含2,975个训练样本和500个验证样本,分辨率为。它与GTA共享19个类别,与SYNTHIA共享16个类别。
场景构建。使用这些数据集,作者为OSDA-SS任务量身定制了新的场景。
评估指标。作者采用了MIoU(平均交并比)和类别平均交并比作为主要评估指标。inspired by [66], we utilized the harmonic mean of the mean IoU score for known classes (common) and the IoU score for one unknown class (private) as our evaluation metric, known as the H-Score.
实现细节。作者采用了DAFormer [10]网络作为基础结构,并对其进行了微调以适应作者的任务。对于OSDA-SS任务,作者采用了以下训练策略:首先,作者在源域上对模型进行预训练;然后,在目标域上进行微调,期间引入了未知类别排除损失以促进模型学习区分已知和未知类别。
Baselines.
4.2. Comparison with the State-of-the-Art
表1分别展示了GTA5 Cityscapes和SYNTHIA Cityscapes的实验结果。在语义分割任务中,分类方法很难准确地区分私有类别,这需要更高程度的空间信息。UDA方法在简单采用基于置信度的方法时,也面临着有效区分私有类别的挑战。相比之下,作者提出的方法在H-Score上显著优于其他比较方法。特别是,与最好的 Baseline 方法相比,作者提出的BUS在GTA Cityscapes上相对于DAF [10]实现了大约+39.4%的性能提升,在SYNTHIA Cityscapes上相对于HRDA [11]实现了大约+23.19%的性能提升。这项实验证明了作者方法在区分私有类别的同时保持公共类别性能的有效性。更详细的分析显示,作者在私有类别IoU得分上相对于DAF [10]实现了+40.79%显著的提升,大约为,并且在公共类别mIoU得分上相对于HRDA [11]也有了大约+8.65%的提高。这表明作者提出的方法不仅提高了私有类别的性能,也对公共类别的性能有了轻微的提升。这是因为DECON损失促使私有类别在边界附近特征收敛的同时,与公共类别的特征保持距离。这减少了公共类别和私有类别之间的混淆,提高了公共类别的预测准确性。此外,由于OpenReMix被设计为学习与公共和私有类别无关的大小不变特征,它提高了公共类别和私有类别形状预测的准确性。作者还与BUDA [48]进行了比较。由于BUDA具有预定义的私有类别定义,直接的比较并不实际,因此作者在补充材料中提供了比较分析。
4.3. Qualitative Evaluation
图4:在SYNTHIA Cityscapes上,作者的方法与 Head 扩展(配置B)、DECON损失(配置C)和OpenReMix(配置D)的定性比较。GT代表真实值。
为了验证作者方法的表现,作者进行了额外的定性评估,以评估与 Baseline 相比的分割性能。
作者在GTA Cityscapes上比较了作者的方法与MIC、基于置信度的MIC(配置A)以及 Head 扩展方法(配置B)(见图3)。此外,在SYNTHIA Cityscapes上,作者比较了作者的方法与 Head 扩展方法(配置B)、结合新的DECON损失(配置C)以及使用新的OpenReMix(配置D)(见图4)。在图3中,作者观察到,为不考虑未知类别的UDA设计的UDA方法MIC在OSDA-SS中检测私有类别时遇到困难。即使是像基于置信度的MIC(配置A)和 Head 扩展(配置B)这样的 Baseline 也面临识别私有类别的挑战。尽管 Head 扩展显示出潜力,但在私有类别的特定像素分类方面仍有局限性。相比之下,作者的方法表现卓越,尤其是在区分目标大小方面。在图4中,作者提出的DECON损失和OpenReMix产生了出色的表现。