主成分分析(PCA)详解

最新推荐文章于 2024-03-27 11:22:03 发布

敲代码的胖虎

最新推荐文章于 2024-03-27 11:22:03 发布

阅读量3.9k

点赞数 2

分类专栏：机器学习文章标签： PCA 降维主成分分析

本文链接：https://blog.csdn.net/weixin_43972621/article/details/100627306

版权

PCA（主成分分析）是一种常用于多变量降维的方法，通过找出一组新变量（特征向量）来尽可能保留原始信息，同时降低数据的复杂度。文章详细介绍了PCA的原理，包括统计学性质、PCA过程、核心推导、实现步骤，并结合乳腺癌案例进行了实战演示，阐述了PCA在实际应用中的价值。

摘要由CSDN通过智能技术生成

一、介绍

PCA（PrincipalComponents Analysis）即主成分分析，常用于对多变量（变量之间具有相关性时）降维的方法，由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，将各个变量综合为少数若干个有代表性的变量。怎样衡量有代表性的变量（特征）？（学术——工业：变量——特征）

能代表原始特征的绝大部分信息
组合后的特征互不相关

例如：图像识别中，设想如果一幅图像有300个特征点，每个特征点又有一个相应的描述该特征点的128维的向量，那么该幅图像就有300*vector（128维）个，那么整个图像识别模型的训练的复杂度相当高。如果我们对每个向量进行PCA处理，将其降维为64维，整个处理的复杂度便会大大降低。但是，很多人不知道具体的原理，现在结合具体的案例从推导到应用来理解PCA。

二、原理

2.1 统计学的一些性质

期望的性质

E(kx) = kE(x)
E(x+y) = E(x) + E(y)

若x和y相互独立：E(xy) = E(x)E(y)；若E(xy) = E(x)E(y)，不能推出x,y相互独立，只能说x,y不相关。

协方差

Cov(x,y) = E(xy) - E(x)E(y)

当 cov(X, Y)>0时，表明 X与Y 正相关；

当 cov(X, Y)<0时，表明X与Y负相关；

当 cov(X, Y)=0时，表明X与Y不相关。

向量夹角与协方差

n维向量x和y的夹角记作 $\theta$ ，根据余弦定理，其余弦值为： $cos(\theta ) = \frac{x^{T}y}{|x||y|} = \frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sqrt{\sum_{i=1}^{n}x_{i}^{2}}\sqrt{\sum_{i=1}^{n}y_{i}^{2}}}$