详解PCA

PCA(主成分分析)是一种多变量降维技术,常用于特征工程。通过找到样本矩阵的最大方差方向来确定主成分,从而实现数据的降维。文章详细介绍了PCA的计算过程,包括样本矩阵的处理、最大化样本方差的方向、如何寻找主成分及其性质。
摘要由CSDN通过智能技术生成

详解PCA


一、PCA简介

PCA(Principal component analysis,主成分分析)算法是一种基于多变量的降维技术,主要用于降维、可视化、去相关、分类、确定潜在因子、压缩和去噪音等方面。是特征工程中不可缺少的一部分,有利于我们构建更加适合模型的特征。


二、从二维的角度直观理解PCA

假设我们拥有样本矩阵 X X X, 从点图来看,数据似乎含有某种线性结构。我们沿着这条线性结构(方差最大的方向),可以构建出第一个主成分 v 1 v_1 v1. 同时,我们取和 v 1 v_1 v1相垂直的方向,可以获得第二个主成分 v 2 v_2 v2. 如下图所示:
在这里插入图片描述
如果我们采用这两个新方向作为空间的基,并在新的空间显示这些样本,我们发现,刚刚的一系列动作其实只是按照一定的角度旋转了原来的空间。
在这里插入图片描述
我们发现,现在这个数据还是二维的,我们并没有达到降维的目的(我们只是旋转了一下坐标轴)。那么,如果我们将这组数据都投影到纵轴等于0的直线上呢?显然,他就只有一个维度了。这不就达到降维的目的了吗?
在这里插入图片描述
现在,我们将这个坐标轴再旋转回去,将新的坐标表示在原坐标系中,我们会发现一个神奇的现象,数据似乎少了某个方向( v 2 v_2 v2)的信息,但是,好像绝大部分信息都被保留了。如果我们觉得丢失那一部分信息是我们可以接受的,那么,我们就只需要采取剩下这个方向的信息来进行之后的运算了。因此,也就实现了我们需要的降维。

在这里插入图片描述


三、如何计算主成分的方向

1、样本矩阵

假设我们有 n n n p p p维的样本(点) ( x 1 , … , x n ) (x_1,\dots,x_n) (x1,,xn),我们有如下的样本矩阵(design matrix)

X = [ x 1 T x 2 T ⋮ x n T ] X=\left[\begin{array}{c}{x_{1}^{T}} \\ {x_{2}^{T}} \\ {\vdots} \\ {x_{n}^{T}}\end{array}\right] X=x1Tx2TxnT

这个矩阵中,每一行就是一个样本,每一列是一个特征。

2、数据集预处理

PCA需要一个中心化过的样本矩阵用于后续的计算。因此每个样本都需要减去样本均值,即 x i − x ‾ x_{i}-\overline{x} xix, 其中 x ‾ = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} x=n1i=1nxi
此外,很多时候PCA还要求样本矩阵是规范化的,也就是说将每个特征的方差放缩为1.

3、离散程度度量

我们要找的那个主方向,其实就是数据离散程度最大的方向。样本方差是一个很好的离散程度度量指标。

s ⋆ 2 ≜ 1 n ∑ i = 1 n ( x i − x ‾ ) 2 s^{\star 2} \triangleq \frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} s2n1i=1n(xix)2

4、沿着坐标轴 v v v

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值