Machine Learning第八讲【非监督学习】-- (四)PCA应用

一、Reconstruction from Compressed Representation(压缩特征的复原)

本部分主要讲我们如何将已经压缩过的特征z^{(i)}复原成原来的x^{(i)},如下图:

左边的二维图是未缩减维数之前的情况,下面的一维图是利用z=U_{reduce}^Tx缩减之后的情况,我们利用公式X_{approx}=U_{reduce}z可以得到x的近似值,如右图,点全部在直线上,虽然有一定的误差, 但是是大致相等的。

 

二、Choosing the Number of Principal Components(如何选择主成分的k值)

我们应该如何选择的值呢?

我们使用下面的不等式作为判断值是否符合的标准:

有了这个判断式,我们该怎么将其应用到实践中?

左图是一个常见的思路,就是“试”,从k=1开始不断尝试,判断k=1是否满足不等式,直到试到k=?使得不等式成立,因此我们取k=?这个值。但是这样需要多次计算U,x,xapprox,效率比较慢。因此我们使用第二种方式,即进行奇异值分解,能够得到S,利用S的数据来计算不等式,比较高校。

具体步骤即为:

因为大多数数据特征具有高度相关性,PCA满足这个不等式时,能够保留99%的差异性,即使是压缩比例很大的情况下,也会看到这样的现象。
 

三、Advice for Applying PCA(应用PCA的建议)

PCA是非监督学习的方法,如果我们的数据是带有y标签,我们应该怎样把PCA应用起来呢?

先对训练集的x值使用PCA得到z,再使用z替换x,得到新的训练集,使用这个训练集训练数据。

 

PCA的主要用途如下:

 

 

 

 

在实际情况下,很多人会认为PCA可以预防过拟合问题,这个想法是错误的,虽然PCA看起来降维会使得特征数更少,让人感觉不会出现过拟合,但是PCA并不是解决过拟合的好方法,PCA把一些数据和信息舍弃掉了,并且在对数据标签y不知情的情况下,对数据进行降维,PCA可用于加速算法速率,但是使用其避免过拟合并不合适。事实证明,当你使用线性回归或者逻辑回归时,使用正则化对于解决过拟合问题更好,公式如下:

另外在实际情况中,我们不能够拿来一个数据集,就先对其进行PCA再训练,实际上,需不需要使用PCA需要根据我们的需求,当我们的需求不需要我们使用PCA时,我们不需要非得使用它。
 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值