PCA主成分数量（降维维度）选择

最新推荐文章于 2025-03-25 09:15:00 发布

ybdesire

最新推荐文章于 2025-03-25 09:15:00 发布

阅读量6.6w

点赞数 37

分类专栏： Machine Learning Python 文章标签： python 机器学习 PCA

本文链接：https://blog.csdn.net/ybdesire/article/details/64546435

版权

Machine Learning 同时被 2 个专栏收录

110 篇文章

订阅专栏

Python

80 篇文章

订阅专栏

介绍

我们知道，PCA是用于对数据做降维的，我们一般用PCA把m维的数据降到k维（k < m）。

那么问题来了，k取值多少才合适呢？

PCA误差

PCA的原理是，为了将数据从n维降低到k维，需要找到k个向量，用于投影原始数据，是投影误差（投影距离）最小。

这里写图片描述
用公式来表示，如下

这里写图片描述

其中

m表示特征个数

分子表示原始点与投影点之间的距离之和，而误差越小，说明降维后的数据越能完整表示降维前的数据。如果这个误差小于0.01，说明降维后的数据能保留99%的信息。

k值选取的原理

实际应用中，我们一般根据上式，选择能使误差小于0.01（99%的信息都被保留）或0.05（95%的信息都被保留）的k值。

而在实际编码中，参考文章《详解主成分分析PCA》，在PCA的实现过程中，对协方差矩阵做奇异值分解时，能得到S矩阵（特征值矩阵）。

PCA误差的表达式等效于下式

1 - \sum k 1 S i \sum m 1 S i \leq 0.01

$1 - \frac{\sum_{1}^{k}S_{i}}{\sum_{1}^{m}S_{i}} \leq 0.01$

从代码示例中，可以看出，将数据从三维降到二维，保留了99.997%的信息。

[U,S,V] = np.linalg.svd(sigma) # 奇异值分解
(S[0]+S[1])/(S[0]+S[1]+S[2])
# result = 0.99996991682077252

实际使用

用sklearn封装的PCA方法，做PCA的代码如下。PCA方法参数n_components，如果设置为整数，则n_components=k。如果将其设置为小数，则说明降维后的数据能保留的信息。

from sklearn.decomposition import PCA
import numpy as np
from sklearn.preprocessing import StandardScaler

x=np.array([[10001,2,55], [16020,4,11], [12008,6,33], [13131,8,22]])

# feature normalization (feature scaling)
X_scaler = StandardScaler()
x = X_scaler.fit_transform(x)

# PCA
pca = PCA(n_components=0.9)# 保证降维后的数据保持90%的信息
pca.fit(x)
pca.transform(x)