主成分分析(PCA)详解

PCA(主成分分析)是一种常用于多变量降维的方法,通过找出一组新变量(特征向量)来尽可能保留原始信息,同时降低数据的复杂度。文章详细介绍了PCA的原理,包括统计学性质、PCA过程、核心推导、实现步骤,并结合乳腺癌案例进行了实战演示,阐述了PCA在实际应用中的价值。
摘要由CSDN通过智能技术生成

一、介绍

PCA(PrincipalComponents Analysis)即主成分分析,常用于对多变量(变量之间具有相关性时)降维的方法,由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,将各个变量综合为少数若干个有代表性的变量。怎样衡量有代表性的变量(特征)?(学术——工业:变量——特征)

  1. 能代表原始特征的绝大部分信息
  2. 组合后的特征互不相关

例如:图像识别中,设想如果一幅图像有300个特征点,每个特征点又有一个相应的描述该特征点的128维的向量,那么该幅图像就有300*vector(128维)个,那么整个图像识别模型的训练的复杂度相当高。如果我们对每个向量进行PCA处理,将其降维为64维,整个处理的复杂度便会大大降低。但是,很多人不知道具体的原理,现在结合具体的案例从推导到应用来理解PCA。

二、原理

2.1 统计学的一些性质

期望的性质

  • E(kx) = kE(x)
  • E(x+y) = E(x) + E(y)

若x和y相互独立:E(xy) = E(x)E(y);若E(xy) = E(x)E(y),不能推出x,y相互独立,只能说x,y不相关。

协方差

  • Cov(x,y) = E(xy) - E(x)E(y)

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

向量夹角与协方差

n维向量x和y的夹角记作\theta,根据余弦定理,其余弦值为:cos(\theta ) = \frac{x^{T}y}{|x||y|} = \frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sqrt{\sum_{i=1}^{n}x_{i}^{2}}\sqrt{\sum_{i=1}^{n}y_{i}^{2}}}

这两个向量的相关系数为:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

敲代码的胖虎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值