内容简介
- 主成分分析
- 主成分分析建模
- 偏最小二乘法
- 偏最小二乘法建模
- Fisher LDA
- 特征选择方法
主成分分析(Principle Component Analysis, PCA)
-
主成分分析是一种线性、非监督、全局的降维算法
-
PCA的目的是找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的
具体讲就是:用少数的若干新变量(原变量的线性组合)替代原变量,新变量要尽可能多地反映原变量的数据信息,同时,新变量之间相互正交,可以消除原变量中相互重叠的信息
主成分分析过程推导
设样本的标准化输入变量矩阵为:
构造一个变量 P 1 P_1 P1,且变量 P 1 P_1 P1能携带标准化输入变量矩阵 X n ∗ k X_{n*k} Xn∗k的信息,满足以下公式:
在信号处理领域,认为信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比。信噪比越大意味着数据质量越好,反之,信噪比越小;
如下图,黄线所处的轴数据分布更为分散,数据在这个方向上方差更大;显然,黄线就是主成分所在的轴
从概率统计观点可知,变量的方差越大,该变量包含的信息越多;因此,上述问题可以转化为要求变量 P 1 P_1 P1的方差最大。 P 1 P_1 P1的方差为
构造拉格朗日函数:
其中, λ 1 \lambda_1 λ1为拉格朗日系数,分别计算 L L L对 λ 1 \lambda_1 λ1和 t 1 \bm t_1 t1的偏导数,并令其为零,则有:
由上式知, t 1 \bm t_1 t1是 V V V的一个标准化特征向量, λ 1 \lambda_1 λ1为其对应的特征值,故:
显然, t 1 \bm t_1 t1是矩阵 V V V的最大特征值 λ 1 \lambda_1 λ1所对应的标准化特征向量,对应的构造变量 P 1 = X t 1 P_1=X\bm t_1 P1=Xt1称为第一主成分,且第一主成分包含的特征信息最多;同理可以求出 X X