主成分分析
主成分分析(或称主分量分析,principal component analysis
)由皮尔逊(Pearson
,1901)首先引入,后来被霍特林(Hotelling
,1933)发展。
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
- 主成分分析的一般目的是:
- 变量的降维;
- 主成分的解释。
处理步骤
-
将数据标准化(必需,不同量纲和大小的数据影响结果)
-
求样本的相关系数矩阵
R
-
求
R
的特征值以及特征向量 -
按主成分累计贡献率超过
80%
来确定主成分的个数K,并写出主成分表达式(一般是80%
,实际问题中70%
多也可以接受) -
对分析结果做统计意义和实际意义的解释(往往是更难的)
数据集
内置的mtcars
数据框包含有关32辆汽车的信息,包括它们的重量,燃油效率(以每加仑英里为单位),速度等。
数据来自1974</