联合分布适配（JDA）

最新推荐文章于 2022-09-24 10:30:34 发布

鄞舯暹

最新推荐文章于 2022-09-24 10:30:34 发布

阅读量5.8k

点赞数 1

分类专栏：迁移学习

本文链接：https://blog.csdn.net/weixin_44390521/article/details/104350237

版权

迁移学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

Long M, Wang J, Ding G, et al. Transfer feature learning with joint distribution adaptation[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 2200-2207.
zhuanlan.zhihu.com/p/27336930

问题描述

先看迁移成分分析（TCA）对问题的描述(https://blog.csdn.net/weixin_44390521/article/details/104336224)：
在已知道源数据的输入 $X_S$ 和输出 $Y_S$ 以及目标数据的输入 $X_T$ 的情况下，预测 $X_T$ 对应的输出 $Y_T$ ，并且假设源数据和目标数据的边缘分布有很多差异，即 $P(X_S) \neq Q(X_T)$ ，但是条件分布一致，即 $P(Y_S|X_S) = Q(Y_T|X_T)$ 。
而在联合分布自适应(JDA)中，条件分布是可以不一致的，即在源数据和目标数据的边缘分布和条件分布差异都很大的情况下，预测目标数据的输出 $Y_T$ ，JDA原文中如此表述其要解决的问题：
（1） 对域的定义（Domain）:域 $D$ 由一个m为空间 $X$ 和一个边缘分布 $P x)$ 组成，即 $D=\lbrace {X,P(x)},x \in X \rbrace$ 。
(2） 任务的定义（Task）：给定域 $D$ ，任务 $T$ 由标签集合 $Y$ 和分类器 $f (x)$ 组成，即 $T=\lbrace {Y,f(x)}\rbrace$ 。
（3） 问题：已知带标签的源数据 $D_S=\lbrace(x_1,y_1)，···，(x_{n_s},y_{n_s})\rbrace$ 和不带标签的目标域 $D_T=\lbrace x_{n_s+1}，···，x_{n_s+n_t} \rbrace$ ，假设 $X_S=X_T，Y_S=Y_T，P(X_S)\neq P(X_T)，Q(Y_S|X_S)\neq Q(Y_T|Y_S)$ ，希望能够学习到一种特征表示，能够显著减少源域和目标域的边缘分布和条件分布差异。

优化目标

JDA希望最小化输入经过 $T$ 变换后和标签的联合期望：
$min_T ||E_{p(x_s,y_s)}(T(x_s),y_s)-E_{p(x_t,y_t)}(T(x_t),y_t)||\approx ||E_{p_s}(x_s)-E_{p_t}(x_t)||+||E_{Q(y_s|x_s)}(y_s|T(x_s)-E_{Q(y_t|x_t)}(y_t|x_t)||$
这个问题是无解的，因为并不知道目标域的标签，JDA使用伪标签的策略，使用源数据训练的分类器预测目标源的标签，即假设 $Q(Y_S|X_S)\approx Q(Y_T|X_T)$ 。显然伪标签是不够准确的，因此优化结果也是不准确的，JDA采样反复迭代的方法，逐渐提高伪标签的正确率。

特征变换

主成分分析(PCA)通过降维的方法学习变换特征表示，设 $X=\lbrace x_1,x_2,···，x_n\rbrace \in R^{m\times n}，n = n_s+n_t$ ， $-\frac{1}{n}1，1\in R^{n\times n}$ 是中心矩阵， $XHX^T$ 是协方差矩阵，PCA的目标是找到一个正交变换矩阵使得：
$max_{A^TA=I}tr(A^TXHX^TA)\space\space\space(1)$
这个优化问题可以通过奇异值分解 $XHX^TA\phi=A\phi$ 求解， $\phi =diag(\phi _1,\phi _2,···，\phi _k) \in R^{k\times k}$ ，是k个最大的特征值最后找到最优的k为特征表示 $Z=A^TX$

边缘分布适配

PCA等降维方法可以学习输入变换的特征表示，但是这样的特征表示是在不同域进行的，学习到的是不同域独立的特征表示。JDA中采样TCA的方法，通过优化两个分布的MMD距离，最小化边缘分布的期望差异：
$||\frac{1}{n_s}\sum_{i=1}^{n_s}A^Tx^i-\frac{1}{n_s+nt}\sum_{j=1}^{n_t+n_s}A^Tx^j||^2=tr(A^TXM_0XA)\space\space\space(2)$
$A$ 是变换矩阵
$M_0$ ，是MMD矩阵, $M_0=\begin{cases}\frac{1}{n_sn_s},&\text x_i,x_j \in D_s \\ \frac{1}{n_tn_t}，&\text xi,x_j\in D_T \\ -\frac{1}{n_sn_t}，&\text others \end{cases}\space\space\space(3)$
通过使用JCA学习特征变换矩阵 $A$ ，得到新的特征表示 $Z=A^TX$

条件分布适配

条件分布适配就是要最小化 $Q(Y_S|X_S)$ 和 $Q(Y_T|X_T)$ 的距离，前面已经说到可以是源数据训练一个分类器，比如支持向量机，预测目标域的标签，称之为伪标签。但是有存在另一个问题是条件分布很难计算，但是类条件概率 $Q(X_S|Y_S=c)$ 和 $Q(X_T|Y_T=c),c\in \lbrace 1,2···，n \rbrace$ 是很容易统计的，如果两个分布的类条件概率的差异很小时，那么条件分布的差异也应该很小的，因此最小化类条件概率和最小化条件概率是相当一致的。JDA中依然使用MMD距离衡量两个分布的差异：
$||\frac{1}{n_s^c}\sum_{x_i\in D_s^c}A^Tx^i-\frac{1}{n_s^c+n_t^c}\sum_{x_j\in D_t^c}A^Tx^j||^2=tr(A^TXM_cXA)\space\space\space(4)$
$\begin {cases} \frac{1}{n_s^c} ,&\text x_i,x_j\in D_S \\ \frac{1}{n_t^c}，&\text x_i,x_j\in D_T \\ -\frac{1}{n_sn_c},\begin{cases}x_i\in D_S,x_j\in D_T \\ xi\in D_T,x_j\in D_S\end{cases} \\ 0,&\text others \end {cases}\space\space\space(5)$

优化问题

把边缘分布和所有类条件分布的MMD距离加起来，就是要优化的问题：
$max_{A^TXHX^TA=I}\sum^C_{i=0}tr(A^TXM_CX^TA)+\lambda ||A||^2\space\space\space(6)$
后一项是正则化项。
设 $\phi = diag(\phi_1,···，\phi_k)$ 是拉格朗日乘子，上述优化问题的拉格朗日函数为：
$tr(A^T(X\sum_{c=0}^CM_cX^T+\lambda I)A)+tr((I-A^TXHXTA)\phi)$
令 $\frac{\alpha L}{\alpha x} = 0$ ，得
$(X\sum_{c=0}^{C}M_cX^T+\lambda I)A=XHX^TA\phi$ ，变换矩阵 $A$ 就是前k个最小的特征值对应的特征向量。
另 $Z = A^TX$ ， $Z$ 就是新的特征，可以理解为提取了源域和目标域的公共特征，这样源域的分类器就可以作为目标域的分类器。但是目标域用的标签是伪标签，因此需要重复上述过程，直至收敛。

鄞舯暹

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
联合分布适配（JDA）

问题描述先看迁移成分分析（TCA）对问题的描述(https://blog.csdn.net/weixin_44390521/article/details/104336224)：在已知道源数据的输入XSX_SXS和输出YSY_SYS以及目标数据的输入XTX_TXT的情况下，预测XTX_TXT对应的输出YTY_TYT，并且假设源数据和目标数据的边缘分布有很多差异，即P(XS)≠Q(XT...
复制链接

扫一扫

专栏目录