文章目录
主成分分析(PCA)基本原理
在数据建模中,我们会经常遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。当变量个数较多且变量之间存在复杂关系,会显著增加分析问题的复杂性。如果有一种方法可以将多个变量综合为少数几个代表性变量,使这些变量既能够代表原始变量的绝大数信息并且互不相干,那么无疑有助于对问题的分析和建模。这时,就可以考虑用主成分分析法。
PCA基本思想
PCA的本质其实就是对角化协方差矩阵。
PCA就是将高维的数据通过线性变换投影到低维空间上去,但这个投影可不是随便投投,要遵循一个指导思想,那就是:找出最能够代表原始数据的投影方法。
“最能代表原始数据”希望降维后的数据不能失真,也就是说,被PCA降掉的那些维度只能是那些噪声或是冗余的数据。
1