论文笔记1——SSDA-YOLO: SEMI-SUPERVISED DOMAIN ADAPTIVE YOLO FOR CROSS-DOMAIN OBJECT DETECTION

SSDA-YOLO: SEMI-SUPERVISED DOMAIN ADAPTIVE YOLO FOR CROSS-DOMAIN OBJECT DETECTION

源码地址 
https://github.com/hnuzhy/SSDA-YOLO
论文地址
arXiv:2211.02213v2 [cs.CV] 27 Nov 2022

Abstract

DAOD的目的是目的缓解跨域差异导致的传输性能下降,目前的DAOD方法大多数是过时、计算量大的两阶段检测器Faster-rcnn,本文提出了半监督的域自适应YOLO方法,使用一阶段的检测器YOLOv5。具体,将知识蒸馏框架与MT模型相结合,帮助学生模型获得未标记目标领域的实例级特征,利用风格迁移转换在不同域交叉生成伪图像,弥补图像级差异。

INTRODUCE

最先进的检测方法大规模基准测试取得非常好的良好效果,但是在非常不同的目标域场景下进行检测,导致性能下降。
由于不同的图像风格、光照条件、图像质量会导致训练数据和测试数据之间带来相当大的域偏移。
解决训练数据集和目标测试数据集之间的差距是 DAOD的重点。DAOD尝试使用源域的标记数据和来自目标域的未标记数据来学习一个鲁棒的和可推广的检测器。domain adaption Faster RCNN为了解决目标检测中域偏移问题而发展起来的一项里程碑研究。
本文提出SSDA-YOLO,通过全监督学习提取源域特征,采取知识蒸馏框架,使用MT模型引导教师网络对未标记的目标图像进行检测,对预测进行过滤,迭代生成强伪标签,实现学生网络的更新。缩小教师和学生模型在图像级的距离,使用CUT离线生成伪图像作为附加输入。
提出新的半监督自适应YOLO,yolo与知识蒸馏结构相结合
设计两个域适应惩罚函数,蒸馏损失和稠度损失。
在两个公开数据集(PascalVOC——Clipart 1k)和(Cityscapes——Fogggy Cityscapes)常用的域转移实验。
在这里插入图片描述
整体结构:中间:我们采用原始的Yolov5网络作为教师和学生模型的基本检测器,在一个知识提炼框架中。 左边:在训练过程中,除了将真实源图像IS和目标图像IT作为输入外,我们还利用相应的预训练CUT模型生成了类目标假源图像IS F和类源假目标图像IT F以缓解图像级域差异。 右边:基于多个输入,我们构成各种相应的损失函数来支持半监督学习。

相关工作:

2.1 Object Detection

单阶段检测:SSD、FCOS、yolo系列
双阶段检测:Faster R-CNN、Mask RCNN
Transformer应用端到端目标检测:模型结构复杂、收敛速度慢

2.2 Cross Domain Object Detection

现有的目标检测方法广泛使用双阶段Faster R-CNN,DA-Faster引入GRL梯度反向层,首次提出实例级和图像级对齐。
本论文采取单阶段检测器解决DAOD问题

2.3 半监督域适应

无监督域适应UDA是将一个模型从标记的源域自适应到未标记的目标域。广泛用于图像分类任务。对于DAOD问题,目标域的标签在训练过程是不可见的,只使用图像。
实际上,我们可以获得一小部分在目标场景中局部标记图像。因此我们可以通过半监督学习(few shot 学习)获得可靠的收益。
本论文收到启发,结合当前的MT模型,构建知识蒸馏方法,利用监督学习在源域数据集,无监督学习在目标数据集。此外,在输入到教师模型之前用类源域全局图片对无标记的目标训练图像进行风格迁移。(未标记的目标域图像,就是模型需要学习如何将源域图像转换到目标域的图像)(将未标记的目标图像输入到教师模型之前,使用源域图像的全局场景对其进行风格转换,可以帮助模型更好的学习如何将源域图像转换为目标域图像,因为全局场景可以帮助模型更好的理解两个与之间的差异)

准备和动机

大多数DAOD方法都侧重利用源域和目标域的数据训练一个共享的检测网络,这种方法很难优化和收敛,促使本论文应对两个主要挑战:

知识蒸馏结构

过去的DAOD方法使用单一的共享的网络去适应跨域数据是一个困难的过程。使用GRL实现两个相互冲突的优化目标。一方面,最小化分类误差在前向传播,另一方面,在反向传播过程中,它变成了一个负标量,以最大化二值分类误差和学习域不变特征。 最大均值差异(MMD)等距离度量通常被用于测量域移位和监督模型。
知识蒸馏结构增强源检测器对目标图像中的目标的感知能力。本论文采用teacher-student 框架,基于单阶段YOLOv5 。

Cross-domain Features Extraction

指在不同的数据集中提取特征并将其组合成一个混合特征表示的过程。这个技术通常用于跨域图像分类、物体检测等
在跨域场景中,不同域的图像有不同的视觉特征,因此需要在不同域之间学习共享特征,以便模型可以再新的域中进行泛化。一般使用VGG、resnet提取图像特征,作为跨域任务的输入,使用迁移学习的技术对其进行微调,达到适应新的域。
本论文采用,伪交叉生成图像解决图像层的对齐,采用MT模型来获取实例层的目标域特征,指导学生模型的训练。

PROPOSED METHOD

包含四个主要的结构:
基于知识蒸馏的MT模型,指导学生网络更新
消除图像级差异的伪交叉生成训练图像网络
消除跨域差异的更新的蒸馏损失
新的一致性损失,进一步纠正跨域的客观性偏差

MT model

应用于半监督的图像分类任务,典型的知识蒸馏结构和两个相同的模型体系结构(学生和教师,教师模型参数更多,可以提供更高的性能)。应用于域适应任务,使用梯度下降优化器,在源域中应用标记数据训练学生模型。根据MT模型的设置,教师模型由来自学生模型的EMA指数移动平均权重更新(EMA方法对学生模型的权重进行平滑处理并使用平滑后的权重更新教师模型参数,该过程可以使教师模型更加平滑和稳定),学生模型和教师模型的权重参数分别为Ps和Pt:
在这里插入图片描述

γ是指数衰减。其合理值接近1.0,通常范围:0.99、0.999等

在跨域目标检测任务重,将未标记的目标域样本DT作为教师模型的单一输入。在这些未标记的样本对学生模型进行部分训练。在蒸馏过程中,通过从教师模型预测中选择概率较高的bounding box作为伪标签,学生模型倾向于减少目标域上的方差(分布越大,数据分布越分散),增强模型的鲁棒性。
假设我们从相同的图像 It 中为教师模型输入了增强的目标信息 It-,为学生模型输入了增强的目标信息It~,可以使用如下定义的蒸馏损失来惩罚两个模型之间的预测的不一致:
在这里插入图片描述

FB和FC是bounding box坐标教师模型的预测分支和最大类别得分较高的类别。GB和GC是对应的过滤器。
在训练的每一步都将MT模型设置为评估模式,并使用NMS对预测的边界框进行过滤,边界框按照置信度进行排序,设置IoU的阈值,最后选择类别得分最高的bounding box。最后的伪标签提供目标域的学生模型实例级特征。

Pseudo Training Image Generation 伪训练图像的生成

在源域中,学生模型的权重更新是由图像主导的。教师模型不会接触源图像,以目标域特征为指导。减轻图像级域差异,这种差异导致两个模型偏向于它们单调的图像输入。收到SWDA启发,利用CycleGAN在全局场景级通过弱配准学习域不变特征的启发,将源域图像转移到类目标域。TDD采用FDA在传统傅里叶变换的基础上,与其风格转换模块中生成类目标图像,作为目标域中额外的目标监督。
本文采用同时生成类目标假源图像和类源假目标图像。
采用CUT非配对的图像翻译器
在这里插入图片描述
在这里插入图片描述

Remedying Cross-Domain Discrepancy

纠正跨域差异
生成类源域假目标图像和类目标假源图像为了减少跨域差异,为了弥补存在跨域差异的学生模型,增加了一个新的监督分支,以类目标图像作为输入(框架黄色流),训练它们与源图像(框架红色流)完全相同,损失函数:
在这里插入图片描述
(等式4)
对于教师模型,为了让它能够学习源域的全局 image-level的特征,将原始输入目标图像替换为类源域假图像(框架蓝色流)。未标记的目标图像 It- 用于训练学生模型保持不变(框架绿色部分),更新蒸馏损失:
在这里插入图片描述
(等式5)
等式4和5的关系在MT模型中通过EMA参数更新建立。学习的教师模型不会明显的倾向于擅长预测目标域中的对象。学生模型的训练将会逐渐接近真实的目标领域,对来自过滤后的 Itf 预测的伪标签进行弱监督,这些伪标签在促进细粒度实例化级适应方面发挥作用。

一致性损失函数

输入学生网络的源图像和类目标图像(It,Itf),具有不同的场景级数据分布,但是属于同一个标签控件。理想情况,用连个域的图像训练的学生模型输出应该一致。因此为了保证输出尽可能一致,在新的分支上增加了一个新的约束。在这里插入图片描述

整体优化

类目标图像和类源域图像通过预训练的CUT离线生成,学生模型采用精细训练的学生模型,以目标图像为单一输入。联合优化所有相关损失进行端到端的训练。在这里插入图片描述

实验过程

训练和测试图片大小(960,960,3),训练过程中,每个批量由两对图像组成
(Is, Isf) with labels and (It, Itf) without labels
以下四种数据集:
1.PASCAL VOC
2.Clipart1k
3.Cityscapes
4.Foggy Cityscapes
训练Cityscapes
训练过程中采用Cityscapes作为源域,Foggy Cityscapes作为目标域,数据集在训练集和验证集中分别包含2975张和500张图像。 雾景数据集是由Cityscapes合成的雾景数据集,具有完全相同的数据分割 在这里插入图片描述

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督域自适应(Unsupervised Domain Adaptation)是指在目标域没有标注数据的情况下,利用源域和目标域的数据进行模型的训练,从而提高目标域上的预测性能。在这种情况下,源域和目标域可能存在一些不同,比如分布不同、标签不同等等,这些差异会影响模型在目标域上的泛化能力。因此,无监督域自适应的目标是通过训练模型来减少源域和目标域之间的差异,从而提高模型在目标域上的性能。无监督域自适应在计算机视觉等领域有着广泛的应用。 我非常有兴趣了解更多关于无监督领域适应的信息。 无监督域自适应是一种机器学习技术,旨在解决源域和目标域之间的分布差异问题,从而提高在目标域上的泛化能力。下面我将进一步介绍无监督域自适应的概念、方法和应用。 1. 无监督域自适应的概念 在无监督域自适应中,我们假设源域和目标域之间存在着一些潜在的相似性或共性,即源域和目标域之间的差异可以通过某种方式进行减少或消除。这种相似性或共性可以通过学习一个域适应模型来实现,该模型可以在源域上训练,并且可以通过无监督的方式进行目标域的训练。域适应模型通常采用深度神经网络等模型结构,通过最小化源域和目标域之间的距离或差异来学习域适应模型。 2. 无监督域自适应的方法 目前,无监督域自适应有很多方法,其中最常用的方法包括: (1) 最大均值差异(Maximum Mean Discrepancy,MMD)方法:该方法通过最小化源域和目标域之间的分布差异,从而学习一个域适应模型。 (2) 对抗性域适应(Adversarial Domain Adaptation,ADA)方法:该方法通过引入一个域分类器来判断数据来自源域还是目标域,并通过最小化分类器的误差来学习一个域适应模型。 (3) 自监督域自适应(Self-supervised Domain Adaptation,SSDA)方法:该方法通过利用目标域中的无标注数据,自动学习一个任务,然后通过该任务来学习一个域适应模型。 3. 无监督域自适应的应用 无监督域自适应在计算机视觉等领域有着广泛的应用。例如,在目标检测、图像分类、图像分割、人脸识别等任务中,无监督域自适应都可以用来提高模型的性能。另外,无监督域自适应还可以用来解决跨语种、跨领域的自然语言处理问题,例如机器翻译、文本分类等任务。 希望这些信息可以帮助你更好地了解无监督域自适应。非常感谢您提供的详细信息!这些信息对于我更好地理解无监督域自适应非常有帮助。我想请问一下,对于不同的无监督域自适应方法,它们的性能和适用场景有什么区别呢?无监督域自适应(unsupervised domain adaptation)指的是一种机器学习领域中的技术,它通过在不需要标记数据的情况下,将一个领域(source domain)的知识迁移到另一个领域(target domain)中。这种技术通常被用于解决在不同的领域之间存在分布差异(domain shift)时,如何训练出泛化能力强的模型的问题。在无监督域自适应中,模型只使用源领域中的标记数据进行训练,然后通过一些转换方法来将模型适应到目标领域中。这种技术的应用范围非常广泛,如自然语言处理、计算机视觉等领域。 我可以提供无监督的领域自适应,以更好地理解和处理不同领域的数据。无监督领域自适应(Unsupervised Domain Adaptation)指的是在没有目标域(target domain)标签的情况下,利用源域(source domain)标签和目标域的无标签数据来提高目标域上的泛化性能。在这种情况下,我们通常假设源域和目标域具有相同的特征空间和相似的分布,但是它们之间的边缘分布可能会有所不同。因此,无监督领域自适应的目标是通过学习一个映射函数,将源域和目标域之间的边缘分布对齐,从而提高目标域上的性能。无监督领域自适应(Unsupervised Domain Adaptation)指的是在源域(source domain)有标注数据但目标域(target domain)没有标注数据的情况下,将源域的知识迁移到目标域中,使得在目标域上的模型表现也能够得到提升的技术。在无监督领域自适应中,通常使用一些特殊的算法或者网络结构,使得模型能够自适应目标域的数据分布,从而达到更好的泛化性能。 我们正在研究无监督领域自适应,以改善机器学习系统的性能。无监督领域自适应(unsupervised domain adaptation)是指在目标领域没有标签数据的情况下,利用源领域的标签数据和目标领域的无标签数据,训练一个适应目标领域的模型的技术。该技术通常应用于机器学习和计算机视觉等领域中,用于解决在源领域训练出的模型不能直接应用到目标领域的问题。无监督领域自适应技术可以提高模型在目标领域的性能,同时也可以减少目标领域标注数据的需求。无监督领域自适应是指将一个模型从一个领域(source domain)迁移到另一个领域(target domain),而不需要在目标领域中使用标记的数据。这意味着,在目标领域中没有关于标签或类别的先验知识,只有一些未标记的样本可供使用。因此,无监督领域自适应是一种半监督学习方法,它使用标记数据从一个领域到另一个领域的知识转移来提高模型在目标领域中的性能。无监督领域自适应在实际应用中具有广泛的应用,例如在自然语言处理、计算机视觉和语音识别等领域。无监督域自适应(unsupervised domain adaptation)是指在源域和目标域数据分布不同的情况下,利用无标签的目标域数据来提升目标域上的学习性能的一种机器学习方法。在无监督域自适应中,通常假设源域和目标域具有相同的标签空间,但是它们的数据分布不同,因此需要通过特征对齐或领域自适应的方法来缓解这种分布偏移问题。无监督域自适应被广泛应用于计算机视觉、自然语言处理等领域,是解决实际应用中数据分布不匹配问题的有效手段之一。无监督领域适应(Unsupervised Domain Adaptation)是一种机器学习中的技术,旨在将在一个领域中学习到的知识迁移到另一个不同领域的情况下进行分类或回归。在无监督领域适应中,目标领域没有标注的标签信息,因此需要使用源领域和目标领域的无标签数据进行训练,以使得模型可以更好地适应目标领域的数据。无监督领域适应通常被应用于计算机视觉领域,例如将在城市场景下训练的模型应用于乡村场景。 我们可以使用无监督领域适应来解决这个问题,这是一种机器学习技术,它可以有效地将现有的模型应用于新的任务和新的领域中。无监督领域自适应(Unsupervised Domain Adaptation)是指在目标域没有标签信息的情况下,利用源域的有标签数据和目标域的无标签数据进行模型训练的技术。其主要目的是将源域的知识迁移到目标域中,从而提高目标域的分类或回归性能。无监督领域自适应在自然语言处理、计算机视觉等领域有广泛的应用。无监督域自适应(unsupervised domain adaptation)是指在源域有标注数据但目标域没有标注数据的情况下,利用源域数据自适应地改进目标域的学习效果。其目的是通过迁移学习,使得在源域上训练好的模型能够适应目标域上的数据,从而提高目标域上的性能表现。无监督域自适应是机器学习领域中的一个重要研究方向,应用广泛,例如在计算机视觉、自然语言处理等领域中都有应用。无监督域自适应(Unsupervised Domain Adaptation)是指在没有标签信息的情况下,将一个领域的数据适应到另一个领域的任务上。它通常用于解决机器学习中的迁移学习问题,即将一个领域中学习到的知识应用到另一个不同但相关的领域中。在无监督域自适应中,模型需要从源域中学习知识,并将其应用到目标域中,从而提高目标域上的性能。这种方法通常用于处理数据集标注不足或成本高昂的情况。无监督域自适应(Unsupervised Domain Adaptation)是指在目标域没有标记数据的情况下,通过利用源域和目标域之间的相似性进行模型训练的一种机器学习技术。其目的是在不同的数据集上训练出具有相同或类似特征的模型,以适应不同的应用场景。无监督域自适应常用于计算机视觉、自然语言处理等领域。无监督域自适应(Unsupervised Domain Adaptation)是指在目标域没有标注数据的情况下,通过学习源域数据和目标域数据之间的差异,将源域的知识迁移到目标域的任务中。在无监督域自适应中,没有人为给出目标域的标签信息,需要从目标域数据中自动学习出特征并进行分类等任务。这种方法在现实应用中具有很大的实用性,可以有效地减少人工标注数据的成本和时间。无监督域适应(Unsupervised Domain Adaptation)是指在目标域和源域数据分布不同的情况下,通过无需标注目标域数据的方式,使得模型能够在目标域上表现良好的技术。它通常应用于机器学习领域中的迁移学习问题,通过将源域的知识迁移到目标域上,从而提高目标域的学习效果。无监督域自适应(Unsupervised Domain Adaptation)是指在目标域(target domain)没有标记数据的情况下,通过在源域(source domain)和目标域之间找到共同特征进行学习,使得源域的知识可以迁移至目标域的技术。其目的是为了提高目标域的性能,使得目标域的模型在未来的数据中表现更好。无监督域自适应是迁移学习(Transfer Learning)的一个重要领域,广泛应用于自然语言处理、计算机视觉等领域。 域自适应是一种技术,它可以让机器学习模型在没有标注数据的情况下从一个领域转移到另一个领域。它使机器学习模型能够从一个偏差的领域转移到另一个偏差的领域,从而提高性能。无监督域自适应(Unsupervised Domain Adaptation)是指在目标域(Target Domain)没有标注数据的情况下,将源域(Source Domain)的知识迁移至目标域,使得在目标域上的模型性能得到提升的一种机器学习技术。这种技术通常用于解决训练数据不足或者不平衡的问题,能够帮助提高模型的泛化能力和适应性。无监督域自适应(Unsupervised Domain Adaptation)是指在目标域数据没有标签的情况下,通过将源域数据的知识迁移到目标域,来提高目标域的分类性能的一种机器学习技术。这种技术在实际应用中非常有用,因为在许多情况下,收集和标记目标域数据都非常昂贵和困难,而源域数据已经存在并且可以用来训练模型。无监督域自适应(Unsupervised Domain Adaptation)是指在没有标签信息的情况下,通过将源域和目标域的数据进行转换和对齐,来提高目标域上的学习效果。通常情况下,源域和目标域的数据分布不同,因此在目标域上直接使用源域的模型会导致性能下降。无监督域自适应可以通过学习源域和目标域之间的共享特征来解决这个问题,从而提高模型在目标域上的泛化能力。无监督领域自适应(unsupervised domain adaptation)指的是在目标域数据没有标签的情况下,通过学习源域数据和目标域数据的差异,将源域的知识迁移到目标域的任务中,以提高模型在目标域的泛化能力。这是一种常见的迁移学习方法。无监督域自适应(Unsupervised Domain Adaptation)指的是在没有标注数据的情况下,将一个领域(source domain)的知识迁移到另一个领域(target domain)中,以提高模型的泛化性能。这种技术在许多机器学习应用中都非常有用,特别是在数据标注成本高、标注数据不足或者难以获取标注数据的情况下。无监督领域自适应(unsupervised domain adaptation)是指在没有目标领域标签数据的情况下,将源领域的知识迁移到目标领域的过程。它通常用于解决在目标领域缺乏标记数据的情况下,如何使用源领域的标记数据来提高模型性能的问题。无监督领域自适应技术包括多个领域适应方法,如深度域对抗网络(DANN)、最大平均差异(MMD)和相关分量分析(CORAL)等。无监督领域自适应(Unsupervised Domain Adaptation)是指在目标领域没有标注数据的情况下,通过利用源领域和目标领域的数据,使得模型在目标领域上的泛化能力更强。这是一个重要的问题,因为在实际应用中,很难获得大量的标注数据。因此,无监督领域自适应是一种有效的方法,可以在没有标注数据的情况下提高模型的性能。无监督域自适应(Unsupervised Domain Adaptation)是指在源域和目标域数据分布不同的情况下,通过不借助目标域的标签信息,仅利用源域数据和一些无标签的目标域数据,来提高目标域的分类性能的一种机器学习技术。在实际应用中,由于很难获取到大量无监督领域自适应(Unsupervised Domain Adaptation)是一种机器学习方法,旨在将从一个领域中收集的数据的知识应用到另一个领域中,而不需要显式的标签或监督信息。其目的是在不同的领域之间迁移学习知识,从而提高模型在目标领域的性能。这种方法在处理从源领域到目标领域之间存在差异的情况下很有用,如语音识别、图像识别和自然语言处理等领域。无监督域适应(Unsupervised Domain Adaptation)是指在没有标注数据的情况下,将源域和目标域之间的差异最小化,使得在目标域上的模型性能能够得到提升的一种机器学习技术。它主要应用于模型训练数据的标注成本较高或者标注数据不足的情况下,通过迁移源域知识来提高模型在目标域的泛化能力。 无监督域适应的目标是找到一个能够将源域和目标域之间的分布差异最小化的特征变换函数,使得在目标域上的模型性能能够得到提升。这个特征变换函数可以通过最小化源域和目标域之间的差异来学习得到。无监督域适应算法通常包括特征提取和特征对齐两个步骤,其中特征对齐是核心步骤,通过最小化源域和目标域之间的分布差异,将两个域的特征空间对齐。 无监督域适应是一种重要的机器学习技术,在自然语言处理、计算机视觉、语音识别等领域得到了广泛应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值