PCA原理+实现-python

最新推荐文章于 2024-08-23 17:24:51 发布

本来无一物.

最新推荐文章于 2024-08-23 17:24:51 发布

阅读量221

点赞数 1

分类专栏：数学/算法文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/weixin_56243568/article/details/127433562

版权

数学/算法专栏收录该内容

7 篇文章 1 订阅

订阅专栏

PCA（主成分分析）是一种数据降维技术，通过线性投影将高维数据映射到低维空间，保留大部分方差。实现步骤包括去除平均值、计算协方差矩阵、求解特征值和特征向量，然后选取最具信息量的特征向量进行降维。代码示例中展示了使用标准Scaler预处理和numpy计算PCA的过程。

摘要由CSDN通过智能技术生成

PCA原理+实现-python

PCA原理+实现-python

1 原理

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的信息量最大（方差最大），以此使用较少的数据维度，同时保留住较多的原数据点的特性。

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

2 实现步骤

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将原始特征转换到上面得到的N个特征向量构建的新空间中（最后两步，实现了特征压缩）

3 代码

import sklearn.datasets as datasets
import numpy as np
from sklearn.preprocessing import StandardScaler
s=StandardScaler()
iris=datasets.load_iris()
X=iris['data']
y=iris['target'] # y一共有三类，每类五十个
A=X-X.mean(axis=0) # 去中心化
V=np.cov(A,rowvar=False) # 协方差
# note:np.linalg.eig(V)为右特征向量，即特征值从大到小排；np.linalg.eigh(V)：特征值从小到大排,得出特征向量和eig结果差个负号
T,TV=np.linalg.eig(V) # 特征值和特征向量计算。output: T为特征值，TV每列为对应特征向量
te=V.dot(TV[:,0]) # Ax=λx。te=Ax,ta=λx。te=ta
ta=T[0]*TV[:,0] # te=ta,即Ax=λx
percentage=T.cumsum()/T.sum() # 前n个特征值占总值的比例。n=1到len(T)
P=TV[:,[0,1]] # 计算得前两个特征值占比例为0.97，选取该两个特征值对应的特征向量计算
X_pca=s.fit_transform(X.dot(P)) # 归一化处理
print(X_pca)