论文笔记:CVPR 2022 Cross-Domain Adaptive Teacher for Object Detection

摘要

我们解决了对象检测中的域适应任务,其中有注释的源域和没有注释的感兴趣的目标域之间存在域间隙(注:在一个数据集上训练模型,再另外一个数据集上进行预测性能下降很大,在一个数据集上训练好的模型无法应用在另一个数据集上。)。作为一种有效的半监督学习方法,教师-学生框架(学生模型由教师模型的伪标签监督)(注:伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。)在跨域对象检测中也产生了很大的准确性提升。然而,它受到域偏移的影响,并产生许多低质量的伪标签(例如,误报(注:TP、True Positive 真阳性:预测为正,实际也为正;FP、False Positive 假阳性:预测为正,实际为负;FN、False Negative 假阴性:预测与负、实际为正;TN、True Negative 真阴性:预测为负、实际也为负)),这导致了次优的性能。为了缓解这个问题,我们提出了一个名为 Adaptive Teacher (AT) 的教师学生框架,它利用领域对抗学习和弱强数据增强来解决领域差距。具体来说,我们在学生模型中采用特征级对抗训练,允许从源域和目标域派生的特征共享相似的分布。这个过程确保学生模型产生领域不变的特征。此外,我们在教师模型(从目标域获取数据)和学生模型(从两个域获取数据)之间应用弱强增强和相互学习这使教师模型能够从学生模型中学习知识,而不会偏向于源域。我们表明,AT 在很大程度上展示了优于现有方法甚至 Oracle(完全监督)模型的优势。

1.介绍

开发可以将从一个标记数据集(即源域)学到的知识转移到另一个未标记的数据集(即目标域)对于对象检测变得越来越重要。研究人员提出了各种方法,例如域分类器和对抗性学习 [10],以解决对象检测中的跨域自适应任务 [2, 3, 14, 32, 39, 42, 44]。尽管这些方法提高了准确性,但仅在复杂的识别任务(例如对象检测)上使用对抗性学习仍然是有限的。因此,目标域上的 Oracle 模型(完全监督)通常仍然存在很大的性能差距。

为了探索在未标记的目标域上进行自我训练以提高检测性能的潜力,研究人员已经利用并将师生自我训练方法从半监督学习扩展到了域适应。

这些方法能够通过通常涉及教师模型来生成伪标签以更新学生模型来学习而无需注释。这些方法在域适应场景中带来了显着的准确性提升。例如,MTOR [1] 使用平均教师 (MT) [40] 作为其管道,以使用区域级、图间和图内一致性来识别关系。

提出了无偏平均教师(UMT)[8],以使用 CycleGAN [43] 来增强师生框架,并实现了进一步的性能提升。

尽管准确率有所提高,但师生框架在领域适应的设置上仍然面临重大挑战:与半监督学习不同,教师模型生成的伪标签通常包含大量错误和误报,如图所示图 1. 这是因为域适应的场景通常涉及标记数据(源域)和未标记数据(目标域)之间的大域间隙。教师模型经过训练,偏向于并且只能在源域上精确捕获特征,因此无法在目标域中提供高质量的伪标签。因此,直接应用师生框架只会导致次优的适应性能。

为了解决这个问题,我们提出了一个名为 Adaptive Teacher (A T) 的自我训练框架,以利用对抗性学习和相互学习来减轻域转移并提高目标域的伪标记质量。我们的模型包括两个独立的模块:特定目标教师模型和跨域学生模型。我们还应用弱增强(仅在学生模型中进行强增强)并将来自目标域的图像输入到教师模型中,我们将其称为“弱-强增强”,遵循无偏教师(UT)[22]。这允许教师模型生成可靠的伪标签,而不会受到大量增强的影响。此外,为了减轻学生模型中对源域的域偏差,我们通过引入具有梯度反向层的鉴别器来应用对抗学习,以对齐学生模型中两个域的分布。通过所有技术,我们观察到伪标签质量显着提高,如图 1 所示,其中误报率被抑制了高达 35%。这进一步导致在所有域适应实验中获得显着的准确性,并优于所有现有方法。我们将本文的贡献总结如下:

• 我们证明了教师-学生框架在域适应场景中的局限性:教师模型偏向源域,只能在目标域上产生低质量的伪标签。

我们提出了一个新的框架,利用对抗性学习增强相互学习和弱强增强来解决跨域对象检测中的域转移问题。

• 我们的方法能够处理域转移并大大优于所有现有的 SOTA。例如,我们在 Foggy Cityscape 上实现了 50.9% 的 mAP,分别比 SOTA 和 Oracle(全监督)高出 9.2% 和 8.2%。

2.相关工作

目标检测。对象检测是在给定输入图像的情况下定位对象及其位置的任务。最近,深度模型已被证明在使用基于锚的方法进行目标检测方面是有效的,例如,Faster R-CNN [30] 引入了区域提议网络 (RPN) 以促进感兴趣区域 (ROI) 的提议生成。之后,提出了几个基于锚的工作 [5,6,15,20,26,37] 以提高性能和功效。另一方面,也提出了无锚方法作为单阶段检测器,而无需生成区域建议的步骤。 YOLO [27] 为多个类联合生成边界框和置信度分数作为回归任务。还提出了它的几个变体 [28, 29]。SSD [21] 也建立在 YOLO 之上,但利用了从不同比例的图像生成的特征图。对于我们的工作,我们使用 Faster R-CNN 作为检测的主干,因为它具有灵活性。

域适应。给定来自目标域的未标记数据,无监督域适应 (UDA) 或域适应 (DA) 旨在从附加的标记源域中学习模型,以在目标域上获得令人满意的性能。最近,它已经证明了它使用深度神经网络的有效性。一方面,一些工作开发了基于差异的方法,通过最小化域差异来学习表示,这也称为最大平均差异(MMD)[23-25]。域适应的另一条线是映射域分布并将其视为具有域分类器的对抗性(最小-最大)优化 [10,11,34,41]。一些生成模型,如 CycleGAN [43] 也可以看作是图像级域适应。然而,与这些一般的视觉任务相比,对象检测的问题更加复杂,因为它必须预测每个对象的边界框和类别标签。与其他识别任务相比,我们的目标是处理跨域对象检测这样具有挑战性的任务

跨域对象检测。最近,越来越多的工作更加关注对象检测任务中的域适应,并提出了各种方法。一些利用具有梯度反向层的对抗性学习用于在 [2, 3, 14, 32, 39, 42, 44] 中跨不同域映射特征。注释级别的适应[17,18,31]或课程学习[38]也被提出用于领域适应的任务。最近,另一个方向是利用平均教师(MT)[40],它最初是为这个任务的半监督学习而提出的。 MTOR [1] 是在 MT 之上提出的,并通过执行区域级、图间和图内一致性来训练其教师网络。类似地,已提出无偏平均教师(UMT)[8] 通过使用 CycleGAN [43] 增加训练样本来减少域偏移。然而,上述方法在平均教师 (MT) 中可能会遇到相同且固有的问题,即在目标域上生成低质量的伪标签。

3.适应性教师

3.1.问题表述和概述

在我们展示我们提出的方法如何能够减轻伪标签在对象检测的域适应中的错误之前,我们首先回顾一下问题的表述。我们在源域中给定 Ns 个标记图像 Ds = {(Xs, Bs, Cs)},在目标域中给定 Nt 个未标记图像 Dt = {Xt},其中 Bs = {bis}Nsi=1 表示边界框注释,Cs = {cis}Nsi=1 表示源图像 Xs = {xis}Nsi=1 的相应类别标签。目标图像 Xt = {xj t}Ntj=1 没有注释。跨域目标检测的最终目标是利用 Ds 和 Dt 设计域不变检测器。

我们的框架概述如图 2 所示。

图 2. 我们提出的自适应教师 (AT) 概述。我们的模型

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值