PCA推导

个人笔记,非教程

Z : d × n Z: d\times n Z:d×n
W : D × d W: D\times d W:D×d
X : D × n X: D\times n X:D×n
Z = W T X Z=W^TX Z=WTX

目标:最大化投影后的方差

max ⁡ w 1 n ∑ i = 1 n ( z i − z ˉ ) 2 s . t . ∣ ∣ W ∣ ∣ 2 = I \max_w \frac1n \sum_{i=1}^n (z_i-\bar z)^2 \\ s.t. ||W||^2=I \\ wmaxn1i=1n(zizˉ)2s.t.W2=I

T a r = max ⁡ w 1 n ∑ i = 1 n ( z i − z ˉ ) 2 = 1 n ∑ i = 1 n ( w T x i − w T x ˉ i ) 2 = 1 n ∑ i = 1 n ( w T ( x i − x ˉ i ) ) 2 = 1 n ∑ i = 1 n ( w T ( x i − x ˉ i ) ( x i − x ˉ i ) T w ) = 1 n w T ∑ i = 1 n ( x i − x ˉ i ) ( x i − x ˉ i ) T w = 1 n w T C o v ( X ) w \begin{aligned} Tar&=\max_w \frac1n \sum_{i=1}^n (z_i-\bar z)^2 \\ &=\frac1n \sum_{i=1}^n(w^Tx_i-w^T\bar x_i)^2 \\ &=\frac1n \sum_{i=1}^n(w^T(x_i-\bar x_i))^2 \\ &=\frac1n \sum_{i=1}^n(w^T(x_i-\bar x_i)(x_i-\bar x_i)^Tw) \\ &=\frac1n w^T\sum_{i=1}^n(x_i-\bar x_i)(x_i-\bar x_i)^Tw \\ &=\frac1n w^TCov(X)w \end{aligned} Tar=wmaxn1i=1n(zizˉ)2=n1i=1n(wTxiwTxˉi)2=n1i=1n(wT(xixˉi))2=n1i=1n(wT(xixˉi)(xixˉi)Tw)=n1wTi=1n(xixˉi)(xixˉi)Tw=n1wTCov(X)w
s . t . ∣ ∣ w ∣ ∣ 2 = 1 s.t. ||w||^2=1 s.t.w2=1

拉格朗日

L ( w , λ ) = 1 n w T C o v ( X ) w + λ ( ∣ ∣ w ∣ ∣ 2 − 1 ) = 1 n w T C o v ( X ) w + λ ( w T w − 1 ) ∂ L ∂ w = 2 n C o v ( X ) w + 2 λ w \begin{aligned} L(w,\lambda)&=\frac1n w^TCov(X)w +\lambda(||w||^2-1)\\ &=\frac1n w^TCov(X)w +\lambda(w^Tw-1)\\ \frac{\partial L}{\partial w}&=\frac{2}{n}Cov(X)w+2\lambda w \end{aligned} L(w,λ)wL=n1wTCov(X)w+λ(w21)=n1wTCov(X)w+λ(wTw1)=n2Cov(X)w+2λw

∂ L ∂ w = 0 \frac{\partial L}{\partial w}=0 wL=0

C o v ( X ) w = λ w Cov(X)w=\lambda w Cov(X)w=λw

代入Tar

T a r = 1 n w T λ w Tar=\frac1n w^T\lambda w Tar=n1wTλw

λ \lambda λ是常数

T a r = 1 n λ w T w Tar=\frac1n \lambda w^Tw Tar=n1λwTw

w T w = 1 w^Tw=1 wTw=1

T a r = 1 n λ Tar=\frac1n \lambda Tar=n1λ

常数乘常数等于常数

T a r = λ Tar=\lambda Tar=λ

最终要最大化的是一个常数 λ \lambda λ

λ \lambda λ是什么

C o v ( X ) w = λ w Cov(X)w=\lambda w Cov(X)w=λw

λ \lambda λ就是 C o v ( X ) Cov(X) Cov(X)的特征值,而我们要最大化 λ \lambda λ,就是对 C o v ( X ) Cov(X) Cov(X)进行特征值分解,然后找到最大的特征值,这个最大的特征值对应的特征向量即 w w w

现在只找到一个投影方向 w w w,我们要找到d个投影方向才能将原数据降到d维

像上面这样我们已经找到第一个投影方向 w 1 w_1 w1了,我们要找的第二个投影方向 w 2 w_2 w2,先给 w 2 w_2 w2加一点约束条件, w 1 ⋅ w 2 = 0 w_1\cdot w_2=0 w1w2=0,或写成 w 1 T w 2 = 0 w_1^Tw_2=0 w1Tw2=0,即 w 1 w_1 w1 w 2 w_2 w2正交,
T a r = 1 n w 2 T C o v ( X ) w 2 Tar=\frac1n w_2^TCov(X)w_2 Tar=n1w2TCov(X)w2
s . t . ∣ ∣ w 2 ∣ ∣ 2 = 1 , w 1 T w 2 = 0 s.t. ||w_2||^2=1,w_1^Tw_2=0 s.t.w22=1,w1Tw2=0

拉格朗日

L ( w , λ ) = 1 n w 2 T C o v ( X ) w 2 + α ( ∣ ∣ w 2 ∣ ∣ 2 − 1 ) + β ( w 1 T w 2 − 0 ) = 1 n w 2 T C o v ( X ) w 2 + α ( w 2 T w 2 − 1 ) + β ( w 1 T w 2 − 0 ) ∂ L ∂ w 2 = 2 n C o v ( X ) w 2 + 2 α w 2 + β w 1 \begin{aligned} L(w,\lambda)&=\frac1n w_2^TCov(X)w_2 +\alpha(||w_2||^2-1)+\beta(w_1^Tw_2-0)\\ &=\frac1n w_2^TCov(X)w_2 +\alpha(w_2^Tw_2-1)+\beta(w_1^Tw_2-0)\\ \frac{\partial L}{\partial w_2}&=\frac{2}{n}Cov(X)w_2+2\alpha w_2+\beta w_1 \end{aligned} L(w,λ)w2L=n1w2TCov(X)w2+α(w221)+β(w1Tw20)=n1w2TCov(X)w2+α(w2Tw21)+β(w1Tw20)=n2Cov(X)w2+2αw2+βw1

∂ L ∂ w 2 = 0 \frac{\partial L}{\partial w_2}=0 w2L=0

C o v ( X ) w 2 = α w 2 + β w 1 Cov(X)w_2=\alpha w_2+\beta w_1 Cov(X)w2=αw2+βw1
α , β \alpha,\beta α,β都是常数可以把 2 n , + , − \frac2n,+,- n2,+,什么的都吸收进去,所以上式没错

然后呢这条式子说明 C o v ( X ) w 2 由 w 2 和 w 1 Cov(X)w_2由w_2和w_1 Cov(X)w2w2w1线性表示,因为 C o v ( X ) w 2 Cov(X)w_2 Cov(X)w2 w 2 w_2 w2方向上,而 w 1 w_1 w1 w 2 w_2 w2正交,所以 C o v ( X ) w 2 = α w 2 Cov(X)w_2=\alpha w_2 Cov(X)w2=αw2 β = 0 \beta=0 β=0

同上面一样我们也是要最大化这个 α \alpha α

因为最大的特征值已经是对应第一个特征向量的了,因此我们要选的是第二大特征值,它所以对应的特征向量就是我们的第二个投影方向 w 2 w_2 w2

同理我们可以一直找到d个投影方向

这d个投影方向就是我们对 C o v ( X ) Cov(X) Cov(X)进行特征分解后前d个最大的特征值所对应的特征向量

有了投影向量矩阵 W W W后我们就可以通过 W T X W^TX WTX得到降到d维后的数据 Z Z Z

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值