PCA主成分分析【机器学习】

参考视频: 吴恩达机器学习 14-3

PCA全称Principal Component Analysis,是数据挖掘中常用的一种降维算法,也用于无监督学习中。

所谓降维,就是把具有相关性的维度合并,用较少的维度取代原先较多的维度。如果原始向量两两正交,即没有相关性,则PCA也没有作用。

比如x是三维的,x=(年龄,学历,出生年份),我们要把它降维到二维,而年龄和出生年份很相似,所以把这两个合并,得到 z =(年龄,学历)。

直观的感受,这里要尽可能地保证降维后,数据的特性损失最小

问题:将无监督学习中的数据集,由 n 维降到 k 维。

PCA算法步骤:

一、均值归一化,得出所有维度的均值,然后各自减去均值。如果特征是在不同的数量级上,我们还需要将其除以标准差 。(作用:如果各个维度数值差距太大,以二维举例就是一个很长的椭圆,那么在椭圆上梯度下降效果是很不好的,所有我们要统一数值范围,使成为一个接近正圆)

二、公式的推导过程超出本课程难度,只需要会用就行。

计算协方差矩阵(covariance matrix :一般用sigma表示):

原始计算方式:

简便计算方式(不需要掌握推导过程):

 

再计算特征向量矩阵 【 U,S,V 】 = svd( Sigma )

   U 还是n维的,但两两正交

 从U中取前 k 列,得到U_reduce矩阵,n*k的

降维后的 z(k*1维) = U_reduce的转置(k*n维) * x(n*1维)

 

至于为什么这样计算就得到了,n维到k维且最小化投射平方误美,这个证明已经超出了本课程的范围,dont worry about it

提示:不要用PCA去解决过拟合问题,不是效果不好,而是不是正确的方法,应当使用正则化等方法解决过拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值