Machine Learning第八讲【非监督学习】-- （四）PCA应用

最新推荐文章于 2021-06-18 17:51:48 发布

xueluowutong

最新推荐文章于 2021-06-18 17:51:48 发布

阅读量290

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

一、Reconstruction from Compressed Representation（压缩特征的复原）

本部分主要讲我们如何将已经压缩过的特征 $z^{(i)}$ 复原成原来的 $x^{(i)}$ ，如下图：

左边的二维图是未缩减维数之前的情况，下面的一维图是利用 $z=U_{reduce}^Tx$ 缩减之后的情况，我们利用公式 $X_{approx}=U_{reduce}z$ 可以得到x的近似值，如右图，点全部在直线上，虽然有一定的误差，但是是大致相等的。

二、Choosing the Number of Principal Components（如何选择主成分的k值）

我们应该如何选择的值呢？

我们使用下面的不等式作为判断值是否符合的标准：

有了这个判断式，我们该怎么将其应用到实践中？

左图是一个常见的思路，就是“试”，从k=1开始不断尝试，判断k=1是否满足不等式，直到试到k=？使得不等式成立，因此我们取k=？这个值。但是这样需要多次计算U，x，xapprox，效率比较慢。因此我们使用第二种方式，即进行奇异值分解，能够得到S，利用S的数据来计算不等式，比较高校。

具体步骤即为：

因为大多数数据特征具有高度相关性，PCA满足这个不等式时，能够保留99%的差异性，即使是压缩比例很大的情况下，也会看到这样的现象。

三、Advice for Applying PCA（应用PCA的建议）

PCA是非监督学习的方法，如果我们的数据是带有y标签，我们应该怎样把PCA应用起来呢？

先对训练集的x值使用PCA得到z，再使用z替换x，得到新的训练集，使用这个训练集训练数据。

PCA的主要用途如下：

在实际情况下，很多人会认为PCA可以预防过拟合问题，这个想法是错误的，虽然PCA看起来降维会使得特征数更少，让人感觉不会出现过拟合，但是PCA并不是解决过拟合的好方法，PCA把一些数据和信息舍弃掉了，并且在对数据标签y不知情的情况下，对数据进行降维，PCA可用于加速算法速率，但是使用其避免过拟合并不合适。事实证明，当你使用线性回归或者逻辑回归时，使用正则化对于解决过拟合问题更好，公式如下：

另外在实际情况中，我们不能够拿来一个数据集，就先对其进行PCA再训练，实际上，需不需要使用PCA需要根据我们的需求，当我们的需求不需要我们使用PCA时，我们不需要非得使用它。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。