理解PCA

PCA(主成分分析)是一种线性变换方法,用于将原始数据转换为一组线性无关的表示,以提取主要特征。通过寻找使数据投影尽可能分散的正交基,PCA最大化了方差并保持了协方差为0。实现过程包括计算零均值化的协方差矩阵,对矩阵进行特征分解,然后选择特征值最大的向量作为新基。PCA的步骤包括数据排列、零均值化、计算协方差矩阵、求解特征值和特征向量,并依据特征值大小选取基向量。
摘要由CSDN通过智能技术生成

0.精简

<1>数据投影越分散的方向,代表数据差异越大,即特征越明显。
<2>方差可以用来代表分散程度,协方差用于保证不同方向的正交性。
<3>协方差矩阵的对角化可以达到在变换方向方差最大,且协方差为0,即保证正交。

1.PCA用途

PCA全称Principal Component Analysis,即主成分分析。其通过 线性变换,将原始数据变换为一组 线性无关(基)的表示。从而提取数据的主要分量。

Z=XP

2.思路

<1> 基本想法: 根据线性变换,一组数据可以由不同的基表示,其中一组基内部各自正交,且为单位向量。 PCA的基本思路是,需找一组正交基P,使得这组基的转换矩阵将原始数据转换到新的空间后,数据在基上的投影尽量分散,也即认为数据分散的方向代表差异更大,能够更好的刻画数据本身的特征。
在这里插入图片描述
<2>实现方法 : 方差 可以用于表示数据的离散度。因此可按照原始数据方差的大小,来需找新的基的方向。同时为了保证正交需求,可利用协方差来约束,当各基之间的协方差为0时,代表线性无关,即相互正交。
假设原始数据特征维度为2,分布为a,b。m*n的数据样本矩阵X为:

[ a 1 b 1 a 2 b 2 a 3 b 3 ] \begin{bmatrix}a1&amp;b1\\a2&amp;b2\\a3&amp;b3\end{bmatrix} a1a2a3b1b2b3

X的每一行代表一个样本,每列代表一个原始特征维度。假设原始数据已经经过处理,使得每一列的特征均值为0。则 协方差矩阵D

D = 1 m − 1 X T X = 1 m − 1 [ ∑ i = 1 m a i 2 ∑ i = 1 m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值