主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用于解释资料的综合性指标。主成分分析实际上是一种降维方法。
主成分分析
1.基本思想及方法
这里对权重做了规定:平方和等于1(为什么不是和等于1 )
一个主成分不足以代表原来的P个变量,因此需要寻找第二个乃至第三、第四主成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。具体确定主成分的方法如下:
注意事项:
- 主成分分析的结果受量纲影响,由于个变量的单位可能不一样,如果改变量纲,结果会不一样。
- 使方差达到最大的主成分分析不用转轴。(
转轴是什么) - 主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃。
- 实际研究中,由于主成分的目的是降维,减少变量的个数,故一般选取少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率)就行了。
下面我们通过主成分估计进一步阐述主成分分析的基本思想和相关概念。
2.主成分估计
主成分估计是回归系数参数的一种线性有偏估计,同其它有偏估计,如岭估计等一样,是为了克服最小二乘估计在设计阵病态(即存在多重共线性)时表现的不稳定性而提出的。
主成分估计采用的方法是将原来的回归自变量变换到另一组变量,即主成分,选择其中一部分重要的主成分作为新的自变量(此时丢弃了一部分影响不大的自变量,这实际达到了降维的目的),然后用最小二乘法对选取主成分后的模型参数进行估计,最后再变换回原来的模型求出参数的估计。
对于自变量的任意一个线性组合
实际步骤如下:
例题