使用PCA算法对原始数据降维

欢迎关注”生信修炼手册”!

PCA是Principal components analysis的简称,叫做主成分分析,是使用最广泛的降维算法之一。所谓降维,就是降低特征的维度,最直观的变化就是特征的个数变少了。当然,不同于特征筛选,这里的降维主要是通过高维空间向低维空间投影来实现的,图示如下

PCA算法的计算步骤分为以下5步

#### 1. 原始特征值的标准化

PCA中所用的标准化方式为零均值标准化,公式如下

对于每一个特征,在原始值的基础上减去平均值,然后除以标准差,通过这一操作将不同量纲的特征统一归一化成标准正态分布,可以进行统一比较。

#### 2, 计算协方差矩阵

协方差用于衡量两个变量之间的相关性,这个概念是在方差的基础上延伸而来,方差的定义如下

方差用于衡量变量偏移均值的程度,而协方差的公式如下

同时考虑了x和y两个变量偏移均值的程度,而且由于是相乘操作,所以当协方差的值大于0时,x和y的变化方向相同,小于0时,x和y的变化方向相反。因此,协方差的值可以反映两个变量之间的相关性,而且相关系数也就是在协方差的基础上除以两个变量的标准差得到的,pearson相关系数的公式如下

协方差矩阵就是多个变量两两之间协方差所构成的矩阵,以3个特征为例,对应的协方差矩阵如下

对于变量与自身的协方差,其值就是对应的方差了,所以在协方差矩阵中,对角线的值是各个变量的方差。

#### 3. 计算协方差矩阵的特征值和特征向量

这一步是PCA的核心,PCA中所谓的主成分就是特征值最大的特征向量了。所以首先计算特征值和特征向量。从这里看出,PCA降维之后的主成分,并不是原来输入的特征了,而是原始特征的线性组合。

#### 4. 选取topN主成分

将特征值按照从大到小排序,选取topN个特征向量,构成新的特征矩阵。

#### 5. 投影

将样本点投影到特征向量上,以二维数据为例,投影前的结果如下

投影到特征向量之后的结果如下

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值