目录
一、主成分分析
概念:从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关
常用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释
目的:
- 数据的压缩——处理指标与指标间相关性高的数据(剔除冗余的数据)
- 数据的解释
数据降维处理可采用 主成分分析法(spss无)、因子分析法
数据处理的典型应用:
- 补全数据(拟合、插值)
- 异常值检测(识别后剔除)
- 数据冗余(效率浪费、结果影响)
1.基本思想
降维处理、浓缩处理(以两个变量为例)
长短轴相差越大,降维也就越合理
找出的新变量是原来变量的线性组合,叫做主成分
各主成分 累计方差贡献率>80% 或 特征值>1
原来——众多具有一定相关性的变量
重新组合后——一组新的相互无关的综合变量
方差小——信息少
方差最大——第一主成分
两个变量——椭圆
多个变量——椭球
2.数学模型
主成分分析两大检验(若多个变量相互独立或相关性很小,则不能进行主成分分析)
- KMO检验(Kaiser-Meyer-Olkin)——检验变量之间的偏相关系数是否过小(>0.5)
- Bartlett‘s检验——该检验的原假设是相关矩阵为单位阵(不相关)。若不能拒绝原假设,则不适合进行主成分分析(<0.05)
3.主成分分析的步骤
- 检验是否可以使用主成分分析法(KMO/Bartlett’s)
- 对原来的指标进行标准化处理,消除变量在水平和量纲上的影响
- 根据标准化后的数据矩阵求出相关系数矩阵
- 求出协方差矩阵的特征根和特征向量
- 确定主成分,并对各主成分所包含的信息给予适当的解释
二、主成分分析法与因子分析法的转换
SPSS只有因子分析,所以需要进行转换