个人笔记,非教程
Z
:
d
×
n
Z: d\times n
Z:d×n
W
:
D
×
d
W: D\times d
W:D×d
X
:
D
×
n
X: D\times n
X:D×n
Z
=
W
T
X
Z=W^TX
Z=WTX
目标:最大化投影后的方差
max w 1 n ∑ i = 1 n ( z i − z ˉ ) 2 s . t . ∣ ∣ W ∣ ∣ 2 = I \max_w \frac1n \sum_{i=1}^n (z_i-\bar z)^2 \\ s.t. ||W||^2=I \\ wmaxn1i=1∑n(zi−zˉ)2s.t.∣∣W∣∣2=I
解
T
a
r
=
max
w
1
n
∑
i
=
1
n
(
z
i
−
z
ˉ
)
2
=
1
n
∑
i
=
1
n
(
w
T
x
i
−
w
T
x
ˉ
i
)
2
=
1
n
∑
i
=
1
n
(
w
T
(
x
i
−
x
ˉ
i
)
)
2
=
1
n
∑
i
=
1
n
(
w
T
(
x
i
−
x
ˉ
i
)
(
x
i
−
x
ˉ
i
)
T
w
)
=
1
n
w
T
∑
i
=
1
n
(
x
i
−
x
ˉ
i
)
(
x
i
−
x
ˉ
i
)
T
w
=
1
n
w
T
C
o
v
(
X
)
w
\begin{aligned} Tar&=\max_w \frac1n \sum_{i=1}^n (z_i-\bar z)^2 \\ &=\frac1n \sum_{i=1}^n(w^Tx_i-w^T\bar x_i)^2 \\ &=\frac1n \sum_{i=1}^n(w^T(x_i-\bar x_i))^2 \\ &=\frac1n \sum_{i=1}^n(w^T(x_i-\bar x_i)(x_i-\bar x_i)^Tw) \\ &=\frac1n w^T\sum_{i=1}^n(x_i-\bar x_i)(x_i-\bar x_i)^Tw \\ &=\frac1n w^TCov(X)w \end{aligned}
Tar=wmaxn1i=1∑n(zi−zˉ)2=n1i=1∑n(wTxi−wTxˉi)2=n1i=1∑n(wT(xi−xˉi))2=n1i=1∑n(wT(xi−xˉi)(xi−xˉi)Tw)=n1wTi=1∑n(xi−xˉi)(xi−xˉi)Tw=n1wTCov(X)w
s
.
t
.
∣
∣
w
∣
∣
2
=
1
s.t. ||w||^2=1
s.t.∣∣w∣∣2=1
拉格朗日
L ( w , λ ) = 1 n w T C o v ( X ) w + λ ( ∣ ∣ w ∣ ∣ 2 − 1 ) = 1 n w T C o v ( X ) w + λ ( w T w − 1 ) ∂ L ∂ w = 2 n C o v ( X ) w + 2 λ w \begin{aligned} L(w,\lambda)&=\frac1n w^TCov(X)w +\lambda(||w||^2-1)\\ &=\frac1n w^TCov(X)w +\lambda(w^Tw-1)\\ \frac{\partial L}{\partial w}&=\frac{2}{n}Cov(X)w+2\lambda w \end{aligned} L(w,λ)∂w∂L=n1wTCov(X)w+λ(∣∣w∣∣2−1)=n1wTCov(X)w+λ(wTw−1)=n2Cov(X)w+2λw
令 ∂ L ∂ w = 0 \frac{\partial L}{\partial w}=0 ∂w∂L=0 得
C o v ( X ) w = λ w Cov(X)w=\lambda w Cov(X)w=λw
代入Tar
T a r = 1 n w T λ w Tar=\frac1n w^T\lambda w Tar=n1wTλw
λ \lambda λ是常数
T a r = 1 n λ w T w Tar=\frac1n \lambda w^Tw Tar=n1λwTw
w T w = 1 w^Tw=1 wTw=1
T a r = 1 n λ Tar=\frac1n \lambda Tar=n1λ
常数乘常数等于常数
T a r = λ Tar=\lambda Tar=λ
最终要最大化的是一个常数 λ \lambda λ
λ \lambda λ是什么
C o v ( X ) w = λ w Cov(X)w=\lambda w Cov(X)w=λw
λ \lambda λ就是 C o v ( X ) Cov(X) Cov(X)的特征值,而我们要最大化 λ \lambda λ,就是对 C o v ( X ) Cov(X) Cov(X)进行特征值分解,然后找到最大的特征值,这个最大的特征值对应的特征向量即 w w w
现在只找到一个投影方向 w w w,我们要找到d个投影方向才能将原数据降到d维
像上面这样我们已经找到第一个投影方向
w
1
w_1
w1了,我们要找的第二个投影方向
w
2
w_2
w2,先给
w
2
w_2
w2加一点约束条件,
w
1
⋅
w
2
=
0
w_1\cdot w_2=0
w1⋅w2=0,或写成
w
1
T
w
2
=
0
w_1^Tw_2=0
w1Tw2=0,即
w
1
w_1
w1与
w
2
w_2
w2正交,
T
a
r
=
1
n
w
2
T
C
o
v
(
X
)
w
2
Tar=\frac1n w_2^TCov(X)w_2
Tar=n1w2TCov(X)w2
s
.
t
.
∣
∣
w
2
∣
∣
2
=
1
,
w
1
T
w
2
=
0
s.t. ||w_2||^2=1,w_1^Tw_2=0
s.t.∣∣w2∣∣2=1,w1Tw2=0
拉格朗日
L ( w , λ ) = 1 n w 2 T C o v ( X ) w 2 + α ( ∣ ∣ w 2 ∣ ∣ 2 − 1 ) + β ( w 1 T w 2 − 0 ) = 1 n w 2 T C o v ( X ) w 2 + α ( w 2 T w 2 − 1 ) + β ( w 1 T w 2 − 0 ) ∂ L ∂ w 2 = 2 n C o v ( X ) w 2 + 2 α w 2 + β w 1 \begin{aligned} L(w,\lambda)&=\frac1n w_2^TCov(X)w_2 +\alpha(||w_2||^2-1)+\beta(w_1^Tw_2-0)\\ &=\frac1n w_2^TCov(X)w_2 +\alpha(w_2^Tw_2-1)+\beta(w_1^Tw_2-0)\\ \frac{\partial L}{\partial w_2}&=\frac{2}{n}Cov(X)w_2+2\alpha w_2+\beta w_1 \end{aligned} L(w,λ)∂w2∂L=n1w2TCov(X)w2+α(∣∣w2∣∣2−1)+β(w1Tw2−0)=n1w2TCov(X)w2+α(w2Tw2−1)+β(w1Tw2−0)=n2Cov(X)w2+2αw2+βw1
令 ∂ L ∂ w 2 = 0 \frac{\partial L}{\partial w_2}=0 ∂w2∂L=0 得
C
o
v
(
X
)
w
2
=
α
w
2
+
β
w
1
Cov(X)w_2=\alpha w_2+\beta w_1
Cov(X)w2=αw2+βw1
α
,
β
\alpha,\beta
α,β都是常数可以把
2
n
,
+
,
−
\frac2n,+,-
n2,+,−什么的都吸收进去,所以上式没错
然后呢这条式子说明 C o v ( X ) w 2 由 w 2 和 w 1 Cov(X)w_2由w_2和w_1 Cov(X)w2由w2和w1线性表示,因为 C o v ( X ) w 2 Cov(X)w_2 Cov(X)w2在 w 2 w_2 w2方向上,而 w 1 w_1 w1与 w 2 w_2 w2正交,所以 C o v ( X ) w 2 = α w 2 Cov(X)w_2=\alpha w_2 Cov(X)w2=αw2, β = 0 \beta=0 β=0
同上面一样我们也是要最大化这个 α \alpha α
因为最大的特征值已经是对应第一个特征向量的了,因此我们要选的是第二大特征值,它所以对应的特征向量就是我们的第二个投影方向 w 2 w_2 w2
同理我们可以一直找到d个投影方向
这d个投影方向就是我们对 C o v ( X ) Cov(X) Cov(X)进行特征分解后前d个最大的特征值所对应的特征向量