无监督学习 | PCA 主成分分析原理及Sklearn实现

最新推荐文章于 2024-08-06 09:00:00 发布

X1AO___X1A

最新推荐文章于 2024-08-06 09:00:00 发布

阅读量1.1k

点赞数 2

分类专栏： # 降维算法无监督学习文章标签：机器学习无监督学习降维 PCA 主成分分析

本文链接：https://blog.csdn.net/weixin_45488228/article/details/102557013

版权

文章目录

1. 降维
2. PCA
- 2.1 最大化方差和最小化损失
- 2.2 坐标轴旋转
3. PCA 推导
- 3.1 PCA 算法推导
- 3.2 维数选择
4. Sklearn 实现
- 4.1 主成分可视化
5. 在线可视化网站
参考文献

机器学习 | 目录

无监督学习 | PCA 主成分分析之客户分类

1. 降维

假设你在使用一组数据来预测房价，你的数据包含以下特征：

房子面积
房间数量
附近学校排名
社区安全

但是可以看出，1、2 在于描述房子的大小，而 3、4 在描述周边环境。因此我们可以用两个新的特征来预测房价：1. 房子大小；2. 周边环境，我们称之为潜在变量。现在可能我们有很多可测量的特征，但或许只有少量的潜在特征，其中包含大部分的信息。

在本文中，我们主要讨论的是如何将维度降低，降低维度的方法有两种：1.特征选择，2. 特征提取。

特征选择指的是从已有变量中选择较少的变量，如用“房子面积”来描述“房子大小”，用“社区安全”来描述“周边环境”，如逐步回归，在 Sklearn 中用 SelectKBest 选择K个最合适的特征，或用 SelectPercentile 选取前百分比的特征。

特征提取则是对同一类的变量进行融合，假设现在有很多特征可以使用，但只有一分布特征在驱动这个数据模式。因此我们希望找出一个组合特征（omposite feature，又称为主成分 principle component），从而将一大堆特征缩减至几个特征。如将“房子面积”和“房间数量”融合为“房子大小”，将“附近学校排名”和“社会安全”融合为“周边环境”，这就是降维，将维数从 4 降到了 2。

主成分分析（Principal Component Analysis, PCA）是最常用的一种降维方法，除此之外还有增量主成分分析（IPCA）、核主成分分析（KPCA）、局部线性嵌入（LLE）、多维缩放（SDA）、等度量映射（Isomap）、t-分布随机近邻嵌入（t-SNE）和线性判别（LDA）。^[1]