Multi-Source Domain Adaptation with Mixture of Experts

在这里插入图片描述

Motivation

本文出发点还是荣multi-source domain adaptation出发,如何利用多个source domain的知识,来更好的预测target domain. 还是从target的分布可以用source distribution的加权来接近。

作者对domain之间的relationship建模提出了mixture-of-expert(MoE)的方法,

  • 将不同的source domain和target domain投影到不同的子空间,而不是将所有的domain投影到同一个子空间。
  • target的后验概率,通过不同source域的分类器加权组合,这里权重反应了target样本到每一个source domain的距离
  • 定义了point-to-set 的metric,并作为loss训练,采用了meta-training的方式

Method

在这里插入图片描述

如图所示模型主要包括四个部分 1)encoder 用来提取特征 2)classifier, domain-specific 分类器,每一个source的都有一个3)metric用来将多个domain-specific的target的结果融合 4)adversary用来align不同域之间的距离

Metric
p m o e ( y ∣ x ) = ∑ i = 1 K α ( x , S i ) p S i ( y ∣ x ) p_{moe}(y|x)=\sum_{i=1}^K\alpha(x,S_i)p^{S_i}(y|x) pmoe(yx)=i=1Kα(x,Si)pSi(yx)
p S i p^{S_i} pSi是由第i个source分类器 F S i F^{S_i} FSi产生的后验概率(给定提取的特征x,判断属于类别y的概率),作者首先定义了point-to-set的马氏距离,即样本x到集合S
d ( x , S ) = ( ( E ( x ) − μ S ) T M S ( E ( x ) − μ S ) ) 1 / 2 d(x,S) = ((E(x)-\mu^S)^TM^S(E(x) - \mu^S))^{1/2} d(x,S)=((E(x)μS)TMS(E(x)μS))1/2
其中 μ S \mu^S μS是S的特征的平均值, M S M^S MS是S的特征的协方差矩阵的逆矩阵

其中 α ( x , S i ) \alpha(x,S_i) α(x,Si)反应了对第i个分类器的可靠程度
α ( x , S i ) = e x p ( e ( x , S i ) ) ∑ j = 1 K e x p ( e ( x , S j ) ) \alpha(x,S_i)=\frac{exp(e(x,S_i))}{\sum_{j=1}^K exp(e(x,S_j))} α(x,Si)=j=1Kexp(e(x,Sj))exp(e(x,Si))
e ( x , S i ) = f ( d ( x , S i ) ) e(x,S_i)=f(d(x,S_i)) e(x,Si)=f(d(x,Si))是基于point-to-set马氏距离设计的score函数,而 α ( x , S i ) \alpha(x,S_i) α(x,Si)是其归一化后的结果。作者针对不同的任务设计了不同的socre函数

  • binary classification

考虑到在二分类任务中, S S S 的feature(encoding)的平均值 μ S \mu^S μS往往接近于decision boundary,样本到boundary越近,往往置信度越低,因此直接用d(x,s)不合适。
e ( x , S ) = ∣ d ( x , S + ) − d ( x , S − ) ∣ e(x,S) = |d(x,S^+)-d(x,S^-)| e(x,S)=d(x,S+)d(x,S)
上述的函数对outlier的点e(x,S)的值低,

  • Sequence tagging

e ( x , S ) = − d ( x , S ) e(x,S) = -d(x,S) e(x,S)=d(x,S)

Training

借鉴了few-shot里面的学习方法,从K个source domain里面任意选一个作为meta-target,其余作为meta-source,这样得到K组(meta-source,meta-target)的训练pair,

loss一共有两个部分:MoE objective和multi-task
L m o e = − ∑ i = 1 K ∑ j = 1 ∣ S i ∣ l o g ( p m o e ( y j S i ∣ x j S i ) ) L_{moe} = -\sum_{i=1}^{K}\sum_{j=1}^{|S_i|}log(p_{moe}(y_j^{S_i}|x_j^{S_i})) Lmoe=i=1Kj=1Silog(pmoe(yjSixjSi))
对每个pair里面的meta-target中的每个样本计算moe loss,meta-target的分类是通过meta-source加权得到,moe就是约束这样的关系,让meta-source中同样的标签的分类变大
L m t l = − ∑ i = 1 K ∑ j = 1 ∣ S i ∣ l o g ( p S i ( y j S i ∣ x j S i ) ) L_{mtl} = -\sum_{i=1}^K\sum_{j=1}^{|S_i|}log(p^{S_i}(y_j^{S_i}|x_j^{S_i})) Lmtl=i=1Kj=1Silog(pSi(yjSixjSi))
Muti-task是分类的交叉熵损失

  • Adversary-augmented MoE

使用MMD来最小化target domain和source domain的边缘分布

在这里插入图片描述

整体的训练算法如图

在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的多源域自适应是指在没有访问源数据的情况下进行的域自适应方法。为了解释这一概念,首先需要了解两个关键术语的含义:域自适应和多源。 域自适应是指在机器学习和数据挖掘中,将模型从一个域(即数据的分布)迁移到另一个域的过程。域自适应的目标是使模型在目标域上具有更好的性能,而不需要重新训练或收集目标域的数据。 多源是指使用来自多个源领域的数据来进行域自适应。这种情况下,我们有多个源域的数据,但没有目标域的数据。这可能是因为目标域的数据很难收集、昂贵或没有权限访问。 在无监督的多源域自适应中,我们试图使用多个源域的数据来进行迁移学习,从而在没有目标域数据的情况下提高目标域上的性能。这个问题是非常具有挑战性的,因为我们没有标签的目标域数据来指导模型的训练。 一种常见的方法是使用领域间的分布差异来进行特征学习。例如,可以使用深度神经网络来学习源域和目标域之间的有用特征。通过最小化源域和目标域之间的距离,我们可以使网络学习到一组在多个域上通用的特征表示。 另一个方法是使用领域适应的损失函数。这种损失函数通过最大化源域和目标域之间的相似性,或最小化它们之间的差异,来迫使模型在目标域上有更好的性能。 总的来说,无监督的多源域自适应是一种在没有目标域数据的情况下使用多个源域数据进行迁移学习的方法。它可以通过学习通用特征或使用领域适应的损失函数来提高目标域上的性能。这种方法对于许多现实世界的情况是非常有用的,例如在医疗图像诊断和自然语言处理等领域中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值