TCA原版文章:S. J. Pan, I. W. Tsang, J. T. Kwok and Q. Yang, “Domain Adaptation via Transfer Component Analysis,” in IEEE Transactions on Neural Networks, vol. 22, no. 2, pp. 199-210, Feb. 2011.doi: 10.1109/TNN.2010.2091281
https://zhuanlan.zhihu.com/p/26764147
问题描述
源域(src)数据:源域数据
D
s
=
(
x
S
1
,
y
S
1
)
,
⋅
⋅
⋅
,
(
x
S
n
1
,
y
S
n
2
)
D_s = {(x_{S_1},y_{S_1}),···,(x_{S_{n_1}},y_{S_{n_2}})}
Ds=(xS1,yS1),⋅⋅⋅,(xSn1,ySn2),其中
x
S
x_S
xS是输入,
y
S
y_S
yS是输出
目标域数据:
D
T
=
x
T
1
,
⋅
⋅
⋅
,
x
T
n
2
D_T = {{x_{T_1},···,x_{T_{n_2}}}}
DT=xT1,⋅⋅⋅,xTn2
目标:正确预测目标域数据的标签
假设
P
(
X
S
)
、
Q
(
X
T
)
P(X_S)、Q(X_T)
P(XS)、Q(XT)分别是源域和目标域的边缘分布,一般来说,使用
P
≠
Q
P \neq Q
P=Q,但是条件分布
P
(
Y
S
∣
X
S
)
=
Q
(
Y
T
∣
X
T
)
P(Y_S|X_S) = Q(Y_T|X_T)
P(YS∣XS)=Q(YT∣XT)
最大均值差异(MMD):
设
X
=
x
1
,
x
2
,
⋅
⋅
⋅
,
x
n
1
X={x_1,x_2,···,x_{n_1}}
X=x1,x2,⋅⋅⋅,xn1和
Y
=
y
1
,
y
2
,
⋅
⋅
⋅
,
y
n
2
Y=y_1,y_2,···,y_{n_2}
Y=y1,y2,⋅⋅⋅,yn2是分布服从分布
P
P
P和
Q
Q
Q的随机变量,使用MMD距离估计两个分布的距离:
D
i
s
t
(
P
,
Q
)
=
∣
∣
1
n
1
∑
i
=
1
n
1
ϕ
(
x
i
)
−
1
n
1
∑
j
=
1
n
2
ϕ
(
x
j
)
∣
∣
H
Dist(P,Q) = ||\frac{1}{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_H
Dist(P,Q)=∣∣n11i=1∑n1ϕ(xi)−n11j=1∑n2ϕ(xj)∣∣H
其中
H
H
H是再生核希尔伯特空间,
ϕ
\phi
ϕ是
X
→
H
X \to H
X→H的映射。
迁移成分分析(TCA)
TCA的目标是在已知道源数据的输入
X
S
X_S
XS和输出
Y
S
Y_S
YS以及目标数据的输入
X
T
X_T
XT时,预测目标数据的输出
Y
T
Y_T
YT,
TCA假设源数据和目标数据的边缘分布有很大的差异,但是条件分布
P
(
Y
S
∣
X
S
)
=
Q
(
Y
T
∣
X
T
)
P(Y_S|X_S) = Q(Y_T|X_T)
P(YS∣XS)=Q(YT∣XT)
TCA试图找到一种非线性映射
ϕ
\phi
ϕ:
X
→
H
X \to H
X→H,使得源数据和目标数据经过非线性变换后(
X
S
→
X
S
′
X_S \to X^{'}_S
XS→XS′,
X
T
→
X
T
′
X_T \to X^{'}_T
XT→XT′),其边缘分布相同(
P
(
X
S
′
)
=
Q
(
X
T
′
)
P(X^{'}_S) = Q(X^{'}_T)
P(XS′)=Q(XT′)),即TCA的目标是找到一个合适的映射,是经映射后的两个分布MMD距离最小:
m
i
n
D
i
s
t
(
X
S
′
,
X
T
′
)
=
∣
∣
1
n
1
∑
i
=
1
n
1
ϕ
(
x
i
)
−
1
n
1
∑
j
=
1
n
2
ϕ
(
x
j
)
∣
∣
H
min Dist(X_S^{'},X_T^{'}) = ||\frac{1}{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_H
minDist(XS′,XT′)=∣∣n11i=1∑n1ϕ(xi)−n11j=1∑n2ϕ(xj)∣∣H
TCA目标优化
- 将MMD距离转换为矩阵形式(推导:https://zhuanlan.zhihu.com/p/26764147):
D i s t ( X S ′ , X T ′ ) = t r ( K L ) ( 1 ) Dist(X_S^{'},X_T^{'}) = tr(KL)\space \space \space(1) Dist(XS′,XT′)=tr(KL) (1),
其中 K 是 ( n 1 + n 2 ) × ( n 1 + n 2 ) K是(n_1+n_2)\times(n_1+n_2) K是(n1+n2)×(n1+n2)的核矩阵, K = [ K S S K T S K S T K T T ] K = \begin{bmatrix}K_{SS} & K_{TS} \\K_{ST} & K_{TT} \end{bmatrix} K=[KSSKSTKTSKTT],
L = { 1 n 1 , x i , x j ∈ D S 1 n 2 , x i , x j ∈ D T − 1 n 1 × n 2 , o t h e r s L=\begin{cases} \frac{1}{n_1} ,&\text x_i,x_j \in D_S \\[2ex] \frac{1}{n_2},&\text x_i,x_j \in D_T \\[2ex] -\frac{1}{n_1\times n_2},&\text others \end{cases} L=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧n11,n21,−n1×n21,xi,xj∈DSxi,xj∈DTothers - 将核矩阵
K
K
K进行分解:
K = ( K K − 1 2 ) ( K − 1 2 K ) K = (KK^{-\frac{1}{2}})(K^{-\frac {1}{2}}K) K=(KK−21)(K−21K),
使用一个 m × ( n 1 + n 2 ) m\times (n_1+n_2) m×(n1+n2)的矩阵 W ~ \widetilde W W 将特征矩阵映射的m维空间:
K ~ = ( K K − 1 2 W ~ ) ( W ~ T K − 1 2 K ) = K W W T K \widetilde{K} = (KK^{-\frac{1}{2}}\widetilde W)(\widetilde W^TK^{-\frac {1}{2}}K) = KWW^TK K =(KK−21W )(W TK−21K)=KWWTK
其中 W = K − 1 2 W ~ W = K^{-\frac{1}{2}}\widetilde W W=K−21W
使用定义 K ~ \widetilde K K 将两个域的MMD距离转换为:
D i s t ( X S ′ , X T ′ ) = t r ( K ~ L ) = t r ( ( K W W T K ) L ) = t r ( W T K L K W ) ( 2 ) Dist(X_S^{'},X_T^{'}) = tr(\widetilde KL) = tr((KWW^TK)L)=tr(W^TKLKW) \space\space\space(2) Dist(XS′,XT′)=tr(K L)=tr((KWWTK)L)=tr(WTKLKW) (2)
3.提取迁移成分
根据(2)式,核学习问题转变成:
m i n W t r ( W T W ) + μ t r ( W T K L K W ) min_Wtr(W^TW)+\mu tr(W^TKLKW) minWtr(WTW)+μtr(WTKLKW)
s . t . W T K H K W = I ( 3 ) s.t.W^TKHKW = I\space\space\space\space\space\space\space\space\space(3) s.t.WTKHKW=I (3)
其中 t r ( W T W ) tr(W^TW) tr(WTW)是正则化项,控制 W W W的复杂度, μ \mu μ是折中系数
I ∈ R m × m I\in R^{m\times m} I∈Rm×m,为单位矩阵
H = I n 1 + n 2 − 1 n 1 + n 2 1 1 T H = I_{n_1+n_2}-\frac{1}{n_1+n_2}11^T H=In1+n2−n1+n2111T,是中心矩阵, 1 1 1是全为1的列向量, W T K H K W = I W^TKHKW = I WTKHKW=I避免 W W W的平方解。
优化问题(3)可以转化为:
m i n W t r ( ( W T K L K W ) − 1 W T ( I + μ K L K ) W ) ( 4 ) min_Wtr((W^TKLKW)^{-1}W^T(I+\mu KLK)W)\space\space\space\space\space(4) minWtr((WTKLKW)−1WT(I+μKLK)W) (4)
或
m a x W t r ( ( W T + μ ( K L K ) W ) − 1 W T K H K W ) ( 5 ) max_Wtr((W^T+\mu(KLK)W)^{-1}W^TKHKW)\space\space\space\space\space(5) maxWtr((WT+μ(KLK)W)−1WTKHKW) (5)
证明:
(3)式转化为拉格朗日对偶形式:
t r ( W T ( I + μ K L K ) W ) − t r ( ( W T K H K W − I ) Z ) ( 6 ) tr(W^T(I+\mu KLK)W)-tr((W^TKHKW-I)Z)\space\space\space\space\space(6) tr(WT(I+μKLK)W)−tr((WTKHKW−I)Z) (6)
其中 Z Z Z为对称矩阵,
对(4)式求导等0,可得:
( I + μ K L K ) W = K H K W Z (I+\mu KLK)W=KHKWZ (I+μKLK)W=KHKWZ,
左右两端乘上 W T W^T WT,可得(4)式,由于 ( I + μ K L K ) W (I+\mu KLK)W (I+μKLK)W是非奇异矩阵,故可得到其等价式(5)。
根据核函数Fisher鉴别(KFD),W的解是 ( I + μ K L K ) − 1 K H K (I+\mu KLK)^{-1}KHK (I+μKLK)−1KHK的前m个特征值。