利用PCA来简化数据

心灵在路上

已于 2024-06-02 10:03:46 修改

阅读量1.3k

点赞数 1

分类专栏：机器学习算法文章标签： android

于 2019-08-21 09:57:40 首次发布

本文链接：https://blog.csdn.net/weixin_44513830/article/details/99937668

版权

机器学习算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

主成分分析

1.什么是主成分分析
2.PCA 原理
- 为什么正交？
- PCA 优缺点
3.PCA的思想
4.sklearn API
5、案例：探究用户对物品类别的喜好细分降维
6.PCA算法总结
- PCA优点：
- PCA缺点：

1.什么是主成分分析

概述

主成分分析(Principal Component Analysis, PCA)：通俗理解：就是找出一个最主要的特征，然后进行分析。

定义

高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量

作用

是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

应用

回归分析或者聚类分析当中

2.PCA 原理

找出第一个主成分的方向，也就是数据方差最大的方向。
找出第二个主成分的方向，也就是数据方差次大的方向，并且该方向与第一个主成分方向正交(orthogonal 如果是二维空间就叫垂直)。
通过这种方式计算出所有的主成分方向。
通过数据集的协方差矩阵及其特征值分析，我们就可以得到这些主成分的值。
一旦得到了协方差矩阵的特征值和特征向量，我们就可以保留最大的 N 个特征。这些特征向量也给出了 N 个最重要特征的真实结构，我们就可以通过将数据乘上这 N 个特征向量从而将它转换到新的空间上。

为什么正交？

正交是为了数据有效性损失最小
正交的一个原因是特征值的特征向量是正交的

PCA 优缺点

优点：降低数据的复杂性，识别最重要的多个特征。
缺点：不一定需要，且可能损失有用信息。
适用数据类型：数值型数据。

3.PCA的思想

PCA顾名思义，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。具体的，假如我们的数据集是n维的，共有m个数据。我们希望将这m个数据的维度从n维降到n’维，希望这m个n’维的数据集尽可能的代表原始数据集。我们知道数据从n维降到n’维肯定会有损失，但是我们希望损失尽可能的小。那么如何让这n’维的数据尽可能表示原来的数据呢？

我们先看看最简单的情况，也就是n=2, n’=1,也就是将数据从二维降维到一维。数据如下图。我们希望找到某一个维度方向，它可以代表这两个维度的数据。图中列了两个向量方向，u1和u2，那么哪个向量可以更好的代表原始数据集呢？从直观上也可以看出，u1比u2好。
在这里插入图片描述
为什么u1比u2好呢？可以有两种解释，第一种解释是样本点到这个直线的距离足够近，第二种解释是样本点在这个直线上的投影能尽可能的分开。

假如我们把n’从1维推广到任意维，则我们的希望降维的标准为：样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开。

4.sklearn API

sklearn.decomposition.PCA(n_components=None)
- 将数据分解为较低维数空间
- n_components:
  - 小数：表示保留百分之多少的信息
  - 整数：减少到多少特征
- PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后指定维度的array

5、案例：探究用户对物品类别的喜好细分降维

ps：数据在kaggle上的一次比赛
在这里插入图片描述

数据如下：

order_products__prior.csv：订单与商品信息
- 字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息
- 字段：product_id, product_name, aisle_id, department_id
orders.csv：用户的订单信息
- 字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所属具体物品类别
- 字段： aisle_id, aisle

在这里插入图片描述

# 去读四张表的数据
prior = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")

# 合并四张表
mt = pd.merge(prior, products, on=['product_id', 'product_id'])
mt1 = pd.merge(mt, orders, on=['order_id', 'order_id'])
mt2 = pd.merge(mt1, aisles, on=['aisle_id', 'aisle_id'])

# pd.crosstab 统计用户与物品之间的次数关系（统计次数）
cross = pd.crosstab(mt2['user_id'], mt2['aisle'])

# PCA进行主成分分析
pc = PCA(n_components=0.95)
data = pc.fit_transform(cross)

6.PCA算法总结

这里对PCA算法做一个总结。作为一个非监督学习的降维方法，它只需要特征值分解，就可以对数据进行压缩，去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点，出现了很多PCA的变种，比如第六节的为解决非线性降维的KPCA，还有解决内存限制的增量PCA方法Incremental PCA，以及解决稀疏数据降维的PCA方法Sparse PCA等。

PCA优点：

1）仅仅需要以方差衡量信息量，不受数据集以外的因素影响。

2）各主成分之间正交，可消除原始数据成分间的相互影响的因素。

3）计算方法简单，主要运算是特征值分解，易于实现。

PCA缺点：

1）主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。

2）方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

心灵在路上

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
利用PCA来简化数据

主成分分析1.什么是主成分分析2.PCA 原理为什么正交？PCA 优缺点3.PCA的思想4.sklearn API5、案例：探究用户对物品类别的喜好细分降维6.PCA算法总结PCA优点：PCA缺点：1.什么是主成分分析概述主成分分析(Principal Component Analysis, PCA)：通俗理解：就是找出一个最主要的特征，然后进行分析。定义高维数据转化为低维数据的过...
复制链接

扫一扫