Domain Adaptation via Prompt Learning论文解读

摘要部分

无监督域自适应(UDA)旨在将从注释良好的源域学习到的模型自适应到只给出未标记样本的目标域。当前的UDA方法通过对齐源和目标特征空间来学习域不变特征。这种对齐是由统计差异最小化或对抗性训练等约束条件强加的。然而,这些约束可能导致语义特征结构的扭曲和类的可辨别性的丧失。在本文中,我们介绍了一种新的UDA提示学习范式(prompt learning paradigm),即通过提示学习进行域适应(DAPL)。与以前的工作相比,我们的方法使用预训练的视觉语言模型,并且只优化了很少的参数。其主要思想是将领域信息嵌入到提示中,这是一种从自然语言生成的表示形式,然后用于执行分类。该域信息仅由来自同一域的图像(例如,“a photo of car”与“a photo of dog”中的同一域为“photo”)共享,从而根据每个域动态调整分类器。通过采用这种范式,我们表明,我们的模型不仅在多个跨领域基准测试上优于以前的方法,而且训练效率很高,易于实现。

介绍部分

提出无监督域自适应(UDA)的目的:标注大型数据集费时费力。

无监督域自适应(UDA)的困难:源域(source domain)与目标域(target domain)存在数据分布偏移(distribution shift)。

无监督域自适应(UDA)的目的:学习域偏移(domain shift)情况下的知识迁移(transferring of knowledge)。

基于卷积的UDA方法:通过对齐源域和目标域来学习域不变表示。

方法分类:

  1. 基于统计差异最小化、最大平均偏差(MMD)和中心力矩差异(Central Moment Discrepancy,CMD,翻译好像有问题?);
  2. 基于对抗学习。通过融合域鉴别器来减少源域和目标域在特征空间的差异。

UDA缺点:通过对齐域来减少差异可能会导致语义信息的丢失。当数据分布的流形结构很复杂时,语义和域信息的纠缠特性会导致这种损失。

DAPL做法:为了学习非纠缠语义和领域表示,我们通过学习连续标签空间中的表示,将提示学习方法引入UDA。提示由三部分组成:域不可知上下文、域特定上下文和类标签。通过提示的类标签,每个图像对应一个真值类。例如,显示“狗的艺术作品(an art work of a dog)”的图像可能对应于提示“绘画狗的图像(An image of a painting Dog)”。域无关上下文表示一般任务信息,并在所有映像之间共享。特定于域的上下文表示域信息,并在每个域中共享。类别标签区分不同的类别。

优点:这种快速的学习方法允许我们学习领域和类别分离的表示,避免了语义信息的丢失。

具体做法:我们将对比目标应用于训练(图1,底部)。只有当图像和文本的领域和类别分别匹配时,它们才形成一对正例,而其他情况都是反例。通过对比Xs和y的表示,分别在特征空间中对齐“草图(sketch)”和“狗(dog)”的图像和文本表示。此外,通过对比XT和y,将“草图”的文本表示从“照片”域中剥离出来。因此,域和类别的表示分别对齐。我们采用对比语言图像预训练(CLIP)作为主干,以促进快速学习和对比学习。

 

验证数据集:Office-Home(74.5%)和VisDA-2017(86.9%)

相关工作

 ……

Preliminaries

backbone:CLIP

CLIP描述:

  • 通过对抗学习进行训练,文本描述范式为“a photo of a [CLASS]”,当图像和文本描述一致时,认为是正例,否则是反例;
  • 训练的目标是最大化正例样本的余弦相似性和最小化反例样本的余弦相似性,在同样的空间中对齐图像和文本表示;
  • 通过对齐特征,模型能够进行zero-shot推断
  • 样本x属于分类yi的判断:

  •  上面描述的输入文本是一个手动设计的提示符,由一系列离散标记组成。在单词嵌入空间中,将手动设计的提示转换为固定向量。
  • 现有的提示学习方法采用了一种领域无关的风格,即在所有领域和所有类别中共享上下文。它遵循统一的风格:

DAPL描述:

  • 组成:图像编码器f(·)(image encoder,ResNet或者ViT)和文本编码器g(·)(text encoder,Transformer);
  • 由于领域无关上下文本身不能处理域之间的分布转移,我们建议使用领域特定上下文(DSC)来捕获每个域的独特特征。
  • 具体地说,我们建议的提示包含两个对应项,一个域不可知上下文和一个域特定上下文。

  • 每个类都可以使用不同的标记进行初始化:

  • 我们有2K个类别,因为我们分别为源域和目标域应用了不同的提示。
  • 目标类别判断:

  •  损失定义:

  •  为了进一步利用未标记的数据,我们在目标域上生成伪标签。我们从具有最大预测概率的K类中选择作为训练数据xu的伪标签yu。
  • 我们只为最大预测概率大于伪标签质量固定阈值τ的未标记数据生成伪标签。我们利用CLIP的zero-shot推理能力生成伪标签。对伪标签的误差定义:

  •  总误差:

  •  通过对比学习消除混淆:

 实验结果

 消融实验结果

 

 

 

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值