这是一篇精准打击PCA之基于SPSS实战
我请我自己写一个普通玩家版基于SPSS平台的PCA攻略,以防我这个笨蛋白痴下次又重新学过。。
PCA是什么?
主成分分析法(PCA), 是一种常用的无监督学习方法,旨在利用降维的思想,通过正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小手原始变量的个数,所以主成分分析属于降维方法,是迄今为止最流行的降维算法。
主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理(比如先用PCA进行变量的降维继而作为机器学习的输入端进行输入,效果一般会比直接把变量输入模型的效果会精准一些)。
关于投影那些原理在此不作赘述,,那些字都能看懂,但连在一起感觉以我的脑子学不明白(我是笨蛋我是笨蛋我是笨蛋)哈哈哈哈哈哈
为什么用PCA?
在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素,但变量过多时会增加计算量和分析问题的复杂度。我们希望在进行定量分析的过程中,涉及的变量较少,反而得到的信息量较多。那么PCA刚好符合我们的需求,它的目标是(基于方差)提取出最有价值的信息。
主成分分析法把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
当然现在有多种途径可以实现PCA,比如MATLAB、Python和SPSS等,但个人由于编程能力非常拉跨,一般按容易度会基于SPSS平台进行PCA。
PCA具体怎么做?
- 具体步骤