注:本文是《从数据到结论》的读书心得,希望没有曲解原书之意
正文开始
一、作用
万事万物中,事物的属性之间可能存在着相关性。寻找多变量的”代表”。
1、 降低变量的维数
2、 主成本分析(principal analysis)是因子分析(factoranalysis)特例。
主成分分析
二、问题抛出
现有100个高中学生的考试成绩(100条记录),科目分别为数,理,化,语文,历史,英语。
1、 这6门课程的成绩是否具有相关性?
2、 能否用一两个综合变量来表示6门课程的成绩?
3、 如果能表示,这些综合变量包含有多少原来6门课程的信息?
4、 如何解释这些综合变量?
5、 能否用综合变量进一步分析学生的学习情况?如给学生排序?
三、形象描述
Ø 二维情况
先考虑简单的情况(两个变量),可以绘制出散点图plot(x,y)
if(数据点可以形成椭圆形轮廓的点阵){
三个轴:椭圆的长轴,短轴,坐标轴
三个轴之间的关系:
1、 长短轴关系
共同点:都要主轴
相异点:短轴数据变化小,长轴变化大,
关系:长轴描述了数据的主要变化,包含了数据的大部分信息,用长轴 变量替换这两个变量,由此降维。
2、椭圆轴与坐标轴关系
通常长轴不一定和坐标轴平行,如何解决?通过线性变换,找到长轴平 行的条件。极端情况下,短轴退化为点,即一个变量为唯一值,长轴就 可以完全解释这些散点的变化。
}
Ø 多维情况
和二维类似,椭球的情况
步骤:
1、 找出多维的主轴
2、 再用代表大多数信息的最长的几个轴作为新的变量
四、分析步骤
上图有SPSS软件获得,其中6个主轴长度,又称特征值(数据相关矩阵的特征值eigenvalue)
图标解释:
Total:各主轴(特征值)大小
of variance:方差(特征值)占比
cumulative:累计占比
可以看出前两个主成分的特征值累计占了总方差的81%,其余4个 contribution(贡献)比较小
结论&