【降维】—PCA主成分分析

当维度过高时,数据在维度空间中变得非常稀疏分散,容易产生过拟合的情况。每当增加一维,其实需要数据量指数级的增加。实际问题中,有些维度特征是具有较强的相关性的,比如学生数据中,学生的学历和学位数据信息相同,我们则可以通过主成分分析PCA,筛选得到线性无关的维度信息。

PS:手写笔头钝了,只能写得潦草。说实话这字狗都嫌弃,有看不懂地方留言或wx:llllChrist 探讨吧。

PCA的核心就是将特征空间重构,即将原坐标系下的特征投影到新的向量空间中,重构的方向是让投影后的数据尽量的分散,就是将投影后数据的方差最大化。

1N是1xN的矩阵,H是中心矩阵,顾名思义让数据在坐标系中中心化,H的特点:H^N=H;

这里另||u1||=1,数据(xi-x^-)T已经中心化,且·u1是实数,所以方差直接等于括号内的平方,J内人为添加的1/N,使得J = u1^T ·S ·u1,S是样本方差。通过拉格朗日乘子法,Su1 = λu1,投影向量u1就是特征向量,λ为方差举证的特征值。

投影是为了让样本的各维度特征变得更加清晰,投影后的样本Xi = (xi^T·uk)uk,k=1~p维度;

在经过重构的P维空间中,选取其中q维无关的向量空间,降维后的样本Xi^ = (xi^T·uk)uk,k=1~q维度。

最小的重构代价 = argmin 投影后样本Xi  -  降维后样本Xi^ 的平方 ;

同样重构代价J中人为加个1/N,使得J = uk^T · S ·uk,k=q+1~p,S为样本方差矩阵。

主要还是怕自己忘了所以才写个笔记...

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值