引言
在这篇文章中,我会介绍一些PCA背后的数学概念,然后我们用Wine数据集作为实例,一步一步地实现PCA。最后,我们用更加强大的scikit-learn方便快速地实现PCA,并用逻辑回归来拟合用PCA转换后的数据集。为了让大家更好地理解PCA,整篇文章都贯穿着实例,现在,让我们享受这篇文章吧。
标准差(Standard Deviation)
在引入标准差之前,我先介绍一下平均值,假设我们有个样本集X,其中的样本为 X=[1,2,3,4,5,6] ,求平均值的公式如下:
X¯=∑ni=1Xin
- X¯ :平均值
- n :样本的个数
-
Xi :第 i 个样本
X的平均值为:
求平均值的python代码如下:
import numpy as np
X=np.array([1,2,3,4,5,6])
np.mean(X)
不幸的是平均值并没有告诉我们关于样本集的很多信息。比如[0,8,12,20]和[8,9,11,12]的平均值都是10,但是它们的数据分散程度有着明显的不同。因此,我们并不满足于仅仅求出一个小小的平均值,它只是一个我们到达伟大目标的一个垫脚石。下面让我们引入标准差,它度量着数据的分散程度。它的公式如下:
s=∑ni=1(Xi−X¯)2n−1−−−−−−−−−−−−−−√
上面的公式测量着样本到样本均值的平均距离。你可能会想,分母为什么不是