主成分分析法
主成分分析步骤
(1)、构造输入变量的少数线性组合,尽可能解释数据的变异性,这些线性组合被称为主成分
(2)、分析步骤寻找第一主成分,使得系数与变量的线性组合的方差最大
寻找第i主成分,使得系数一之前的系数正交,线性组合的方差最大
主成分分析的主要理论结果
各主成分之间互补线性相关
每一主成分的方差为协方差矩阵对应的特征值,据此可以求出累计方差
还可以求出主成分和变量之间的相关系数
主成分个数的选择
碎石图
累计方差和达到一定的比例
主成分方差大于平均方差
保留成分在实际中有可解释性
变量标准化
主成分分析对变量的尺度很敏感需要将变量标准化
主成分的含义
系数绝对值较大的输入变量的含义来解释第i各主成分的含义
遇到的问题
(1)将所有变量一起考虑时,各变量之间的线性相关程度比较难把握,需要经验的支持
(2)选择主成分个数时不同的方法选择的个数往往不一样
(3)主成分对实际解释并不是很好
解决办法
针对变量选择问题,可以改变主成分的个数,多次实验,选出效果最好的哪一个
线性关系可以通过相关性热力图来观察,通过颜色的色彩呈现比数字的直接呈现效果要更加明显
主成分不能很好解释实际的时候,需要重新改变输入变量&#x