TCA(迁移成分分析)

TCA原版文章:S. J. Pan, I. W. Tsang, J. T. Kwok and Q. Yang, “Domain Adaptation via Transfer Component Analysis,” in IEEE Transactions on Neural Networks, vol. 22, no. 2, pp. 199-210, Feb. 2011.doi: 10.1109/TNN.2010.2091281
https://zhuanlan.zhihu.com/p/26764147

问题描述

源域(src)数据:源域数据 D s = ( x S 1 , y S 1 ) , ⋅ ⋅ ⋅ , ( x S n 1 , y S n 2 ) D_s = {(x_{S_1},y_{S_1}),···,(x_{S_{n_1}},y_{S_{n_2}})} Ds=(xS1,yS1)(xSn1,ySn2),其中 x S x_S xS是输入, y S y_S yS是输出
目标域数据: D T = x T 1 , ⋅ ⋅ ⋅ , x T n 2 D_T = {{x_{T_1},···,x_{T_{n_2}}}} DT=xT1,xTn2
目标:正确预测目标域数据的标签
假设 P ( X S ) 、 Q ( X T ) P(X_S)、Q(X_T) P(XS)Q(XT)分别是源域和目标域的边缘分布,一般来说,使用 P ≠ Q P \neq Q P=Q,但是条件分布 P ( Y S ∣ X S ) = Q ( Y T ∣ X T ) P(Y_S|X_S) = Q(Y_T|X_T) P(YSXS)=Q(YTXT)

最大均值差异(MMD):

X = x 1 , x 2 , ⋅ ⋅ ⋅ , x n 1 X={x_1,x_2,···,x_{n_1}} X=x1,x2,xn1 Y = y 1 , y 2 , ⋅ ⋅ ⋅ , y n 2 Y=y_1,y_2,···,y_{n_2} Y=y1,y2,yn2是分布服从分布 P P P Q Q Q的随机变量,使用MMD距离估计两个分布的距离:
D i s t ( P , Q ) = ∣ ∣ 1 n 1 ∑ i = 1 n 1 ϕ ( x i ) − 1 n 1 ∑ j = 1 n 2 ϕ ( x j ) ∣ ∣ H Dist(P,Q) = ||\frac{1}{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_H Dist(P,Q)=n11i=1n1ϕ(xi)n11j=1n2ϕ(xj)H
其中 H H H是再生核希尔伯特空间, ϕ \phi ϕ X → H X \to H XH的映射。

迁移成分分析(TCA)

TCA的目标是在已知道源数据的输入 X S X_S XS和输出 Y S Y_S YS以及目标数据的输入 X T X_T XT时,预测目标数据的输出 Y T Y_T YT
TCA假设源数据和目标数据的边缘分布有很大的差异,但是条件分布 P ( Y S ∣ X S ) = Q ( Y T ∣ X T ) P(Y_S|X_S) = Q(Y_T|X_T) P(YSXS)=Q(YTXT)
TCA试图找到一种非线性映射 ϕ \phi ϕ: X → H X \to H XH,使得源数据和目标数据经过非线性变换后( X S → X S ′ X_S \to X^{'}_S XSXS X T → X T ′ X_T \to X^{'}_T XTXT),其边缘分布相同( P ( X S ′ ) = Q ( X T ′ ) P(X^{'}_S) = Q(X^{'}_T) P(XS)=Q(XT)),即TCA的目标是找到一个合适的映射,是经映射后的两个分布MMD距离最小:
m i n D i s t ( X S ′ , X T ′ ) = ∣ ∣ 1 n 1 ∑ i = 1 n 1 ϕ ( x i ) − 1 n 1 ∑ j = 1 n 2 ϕ ( x j ) ∣ ∣ H min Dist(X_S^{'},X_T^{'}) = ||\frac{1}{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_H minDist(XS,XT)=n11i=1n1ϕ(xi)n11j=1n2ϕ(xj)H

TCA目标优化
  1. 将MMD距离转换为矩阵形式(推导:https://zhuanlan.zhihu.com/p/26764147):
    D i s t ( X S ′ , X T ′ ) = t r ( K L )     ( 1 ) Dist(X_S^{'},X_T^{'}) = tr(KL)\space \space \space(1) Dist(XS,XT)=tr(KL)   (1)
    其中 K 是 ( n 1 + n 2 ) × ( n 1 + n 2 ) K是(n_1+n_2)\times(n_1+n_2) K(n1+n2)×(n1+n2)的核矩阵, K = [ K S S K T S K S T K T T ] K = \begin{bmatrix}K_{SS} & K_{TS} \\K_{ST} & K_{TT} \end{bmatrix} K=[KSSKSTKTSKTT]
    L = { 1 n 1 , x i , x j ∈ D S 1 n 2 , x i , x j ∈ D T − 1 n 1 × n 2 , o t h e r s L=\begin{cases} \frac{1}{n_1} ,&\text x_i,x_j \in D_S \\[2ex] \frac{1}{n_2},&\text x_i,x_j \in D_T \\[2ex] -\frac{1}{n_1\times n_2},&\text others \end{cases} L=n11,n21,n1×n21,xi,xjDSxi,xjDTothers
  2. 将核矩阵 K K K进行分解:
    K = ( K K − 1 2 ) ( K − 1 2 K ) K = (KK^{-\frac{1}{2}})(K^{-\frac {1}{2}}K) K=(KK21)(K21K)
    使用一个 m × ( n 1 + n 2 ) m\times (n_1+n_2) m×(n1+n2)的矩阵 W ~ \widetilde W W 将特征矩阵映射的m维空间:
    K ~ = ( K K − 1 2 W ~ ) ( W ~ T K − 1 2 K ) = K W W T K \widetilde{K} = (KK^{-\frac{1}{2}}\widetilde W)(\widetilde W^TK^{-\frac {1}{2}}K) = KWW^TK K =(KK21W )(W TK21K)=KWWTK
    其中 W = K − 1 2 W ~ W = K^{-\frac{1}{2}}\widetilde W W=K21W
    使用定义 K ~ \widetilde K K 将两个域的MMD距离转换为:
    D i s t ( X S ′ , X T ′ ) = t r ( K ~ L ) = t r ( ( K W W T K ) L ) = t r ( W T K L K W )     ( 2 ) Dist(X_S^{'},X_T^{'}) = tr(\widetilde KL) = tr((KWW^TK)L)=tr(W^TKLKW) \space\space\space(2) Dist(XS,XT)=tr(K L)=tr((KWWTK)L)=tr(WTKLKW)   (2)
    3.提取迁移成分
    根据(2)式,核学习问题转变成:
    m i n W t r ( W T W ) + μ t r ( W T K L K W ) min_Wtr(W^TW)+\mu tr(W^TKLKW) minWtr(WTW)+μtr(WTKLKW)
    s . t . W T K H K W = I           ( 3 ) s.t.W^TKHKW = I\space\space\space\space\space\space\space\space\space(3) s.t.WTKHKW=I         (3)
    其中 t r ( W T W ) tr(W^TW) tr(WTW)是正则化项,控制 W W W的复杂度, μ \mu μ是折中系数
    I ∈ R m × m I\in R^{m\times m} IRm×m,为单位矩阵
    H = I n 1 + n 2 − 1 n 1 + n 2 1 1 T H = I_{n_1+n_2}-\frac{1}{n_1+n_2}11^T H=In1+n2n1+n2111T,是中心矩阵, 1 1 1是全为1的列向量, W T K H K W = I W^TKHKW = I WTKHKW=I避免 W W W的平方解。
    优化问题(3)可以转化为:
    m i n W t r ( ( W T K L K W ) − 1 W T ( I + μ K L K ) W )       ( 4 ) min_Wtr((W^TKLKW)^{-1}W^T(I+\mu KLK)W)\space\space\space\space\space(4) minWtr((WTKLKW)1WT(I+μKLK)W)     (4)

    m a x W t r ( ( W T + μ ( K L K ) W ) − 1 W T K H K W )       ( 5 ) max_Wtr((W^T+\mu(KLK)W)^{-1}W^TKHKW)\space\space\space\space\space(5) maxWtr((WT+μ(KLK)W)1WTKHKW)     (5)
    证明:
    (3)式转化为拉格朗日对偶形式:
    t r ( W T ( I + μ K L K ) W ) − t r ( ( W T K H K W − I ) Z )       ( 6 ) tr(W^T(I+\mu KLK)W)-tr((W^TKHKW-I)Z)\space\space\space\space\space(6) tr(WT(I+μKLK)W)tr((WTKHKWI)Z)     (6)
    其中 Z Z Z为对称矩阵,
    对(4)式求导等0,可得:
    ( I + μ K L K ) W = K H K W Z (I+\mu KLK)W=KHKWZ (I+μKLK)W=KHKWZ
    左右两端乘上 W T W^T WT,可得(4)式,由于 ( I + μ K L K ) W (I+\mu KLK)W (I+μKLK)W是非奇异矩阵,故可得到其等价式(5)。
    根据核函数Fisher鉴别(KFD),W的解是 ( I + μ K L K ) − 1 K H K (I+\mu KLK)^{-1}KHK (I+μKLK)1KHK的前m个特征值。
  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值