降维与特征选择

内容简介

  • 主成分分析
  • 主成分分析建模
  • 偏最小二乘法
  • 偏最小二乘法建模
  • Fisher LDA
  • 特征选择方法

主成分分析(Principle Component Analysis, PCA)

  • 主成分分析是一种线性、非监督、全局的降维算法

  • PCA的目的是找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的

    具体讲就是:用少数的若干新变量(原变量的线性组合)替代原变量,新变量要尽可能多地反映原变量的数据信息,同时,新变量之间相互正交,可以消除原变量中相互重叠的信息

主成分分析过程推导

设样本的标准化输入变量矩阵为:

在这里插入图片描述
构造一个变量 P 1 P_1 P1,且变量 P 1 P_1 P1能携带标准化输入变量矩阵 X n ∗ k X_{n*k} Xnk的信息,满足以下公式:
在这里插入图片描述
在信号处理领域,认为信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比。信噪比越大意味着数据质量越好,反之,信噪比越小;
如下图,黄线所处的轴数据分布更为分散,数据在这个方向上方差更大;显然,黄线就是主成分所在的轴
在这里插入图片描述

从概率统计观点可知,变量的方差越大,该变量包含的信息越多;因此,上述问题可以转化为要求变量 P 1 P_1 P1的方差最大。 P 1 P_1 P1的方差为
在这里插入图片描述
构造拉格朗日函数:
在这里插入图片描述
其中, λ 1 \lambda_1 λ1为拉格朗日系数,分别计算 L L L λ 1 \lambda_1 λ1 t 1 \bm t_1 t1的偏导数,并令其为零,则有:
在这里插入图片描述
由上式知, t 1 \bm t_1 t1 V V V的一个标准化特征向量, λ 1 \lambda_1 λ1为其对应的特征值,故:
在这里插入图片描述
显然, t 1 \bm t_1 t1是矩阵 V V V的最大特征值 λ 1 \lambda_1 λ1所对应的标准化特征向量,对应的构造变量 P 1 = X t 1 P_1=X\bm t_1 P1=Xt1称为第一主成分,且第一主成分包含的特征信息最多;同理可以求出 X X

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值