PCA降维的原理
- PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分( principal components)。新的低维数据集会尽可能的保留原始数据的变量。
- 降维方式就是通过分析数据的主成分,在不丢失过多信息的情况下,通过映射将高维数据投影到较低纬度的数据中去。
主成分的计算
- 矩阵的主成分是由其协方差矩阵的特征向量,按照对应的特征值大小排序得到的。最大的特征值就是第一主成分,第二大的特征值就是第二主成分,以此类推。
方差与协方差
- 方差:用于度量一组数据的离散程度,是各个样本和样本均值差的平方的均值。公式如下:
s 2 = ∑ i = 1 n ( X i − X ‾ ) n − 1 s^2=\frac {\sum^n_{i=1}(X_i-\overline X)} {n-1} s2=n−1∑i=1n