主成分分析

一 相关知识

均值、协方差矩阵:

  • 样本均值 M=1N(X1+X2++XN)
  • 中心化:
    Xk=XkM

    B=[X1X2XN]
  • 样本协方差: S=1N1BBT

二 主成分分析(PCA)

2.1 概述

原理分析

主成分分析是一种通过降维技术把多个变量化为重新组合成少数几个互不相关的主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量线性组合。

F1F2Fm=a11a21am1a12a22am2a1pa2pampX1X2Xm              (1)

而且主成份的信息量要尽量大,即其方差要尽可能大

通过上述分析,主成份分析有以下几个特点:

  • 主成分个数远远少于原有变量的个数: mp
  • 主成分之间应该互不相关: cov(FiFj)=0
  • 主成分能够反映原有变量的绝大部分信息
    var(Fi) 要尽可能大
  • 主成分具有命名解释性

因为 Fi=[ai1ai2aip]X1X2Xp=aiX ,所以

var(Fi)=var(aiX)=aiaTi

其中 X 的协方差矩 1

根据二次型的条件优化的相关定理2,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值
所以有 var(Fi)=λi ,其中 λi 为协方差矩[的第 i 个特征值

主成分分析的一般目的

  • 1.变量的降维
  • 2.主成分的解释

计算步骤:
1、计算协方差矩阵
2.求上述矩阵的特征值和特征向量,可以得到以下等式

F1F2Fp=eT1eT2eTpx1x2xp

其中 ei 为特征向量

ei=ei,1ei,2ei,p

根据累计贡献率 G(m)=1mλi/1pλk ,取累计贡献率大于85%对应的m值;

计算主成份负荷 ρ(Fi,Xj)=λieij/Si ,其中 Si 为随机变不了 Xj 的样本方差

证明:
因为

F1F2Fp=eT1eT2eTpx1x2xp

F=UTX ,因为 U 为标准正交矩阵,所以UF=X,所以 Xi=e1jF1+e2jF2++epjFp
因为 Fi 之间相互独立,则 cov(Fi,Fj)=0ij
所以 cov(Fi,Xj)=cov(Fi,e1jF1+e2jF2++epjFp)=cov(Fi,eijFi)=eijcov(Fi,Fi)=λieji
所以主成份负荷
ρ(Fi,Xj)=cov(Fi,Xj)/{var(Fi)var(Xj)}=λieij/Si

参考


  1. 张贤达 矩阵分析与应用 1.3 随机向量 P26-32: 线性代数
  2. 二次型的条件优化
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值