概念
数据降维是在某些特定条件下,减少数据中变量的个数,使得数据的维数降低。
基本思想
数据降维的思想是使用变量数更少的向量代表原来高维向量的信息。为什么要做数据降维呢?首先,数据降维技术可以解决“维数灾难”问题。维数灾难就是在高维空间中样本分布稀疏的问题,可以设想100个样本点分布在一维空间、二维空间、三维空间的情形,如果分布在100维空间呢?每增加一维空间所需的样本数是指数级增长的。在实际数据分析过程中,样本量是有限的,所以高维数据的降维技术不可或缺。
分类
数据降维技术通常分为特征选择和特征变换两类。特征选择是在数据中选出主要变量,剔除冗余或无信息变量,以达到降维的目的。特征选择也常被称为变量选择、特征压缩、属性选择等。常见的特征选择降维方法有LASSO、最优子集选择等变量选择方法。特征变换是通过数据变换使得数据维数降低,通常得到的新变量为原始变量的变换,主成分分析就是一种代表性方法。
数据降维技术方法众多,从不同的角度考虑还有其他分类方法。例如,根据数据特性分为线性降维和非线性降维。根据是否使用监督信息,可分为有监督降维、无监督降维等。主成分分析方法就是无监督的、线性降维方法。
基本原理
对于高维数据降维问题,如何尽可能地不损失原始数据的信息,是近年来统计学活跃的研究领域。充分降维方法的研究是持续的热点问题。考虑回归模型,响应变量 Y ∈ R Y \in R Y∈R ,解释变量 X ∈ R p X \in R^p X∈Rp,充分降维方法就是寻找原始解释变量的线性组合,使其包含 X X X的所有信息。即存在一个矩阵 B ∈ R p × r B \in R^{p \times r} B∈Rp×r, r ⩽ p r \leqslant p r⩽p,给定 B T X B^T X BTX, Y Y Y和 X X X独立,也就是要推断 Y Y Y的分布,只要 B T X B^T X BTX就够了。也可以等价地写成 F ( y ∣ X ) = F ( y ∣ B T X ) F(y|X) = F(y|B^T X) F(y∣X)=F(y∣BTX)。例如常用的条件均值模型,就是研究 E ( y ∣ X ) = E ( y ∣ B T X ) E(y|X) = E(y|B^T X) E(y∣X)=E(y∣BTX)问题。充分降维方法和主成分分析方法都起到降维的作用,主成分分析只能组织自身的变量,充分降维方法以解释响应变量 Y Y Y为目的组织解释变量。充分降维方法和变量选择方法也类似,但变量选择方法是减少解释变量个数,充分降维方法是把解释变量减少到 r r r个解释变量的线性组合, r ⩽ p r \leqslant p r⩽p,以完成降维的目的。
主成分分析(PCA降维)principal component analysis
概念
主成分分析是将多项指标转换成少数几个不相关的综合指标的多元统计分析方法,能够解决诸多变量由于存在多重共线性而影响估计参数的问题。
原理
主成分分析(PCA)在力保数据信息损失最少的原则下,对高维变量空间进行降维处理,也就是从原数据中提取少数几个能概括原数据大部分信息的主成分变量。这样,低维主成分空间保留了原始数据的大部分方差信息,而且主成分变量之间具有正交性,可以有效去除原数据空间的冗余信息。
作为一种有效的数据压缩和信息提取方法,主成分分析方法最早由英国数学家K.皮尔逊(Karl Pearson)于1901年提出。1923年R.A.费希尔(Ronald Aylmer Fisher)认为PCA在系统相应方差分析方面的用途比系统建模的用途要大。1933年,美国统计学家H.霍特林(Harold Hotelling)对PCA进行了改进,并将这个概念推广到随机变量,随后大量文献对其进行了研究,使其理论逐渐完善,逐渐发展为广泛应用的方法。随后,美国学者J.E.杰克逊(J.Edward Jackson)在1959年将PCA与T检验结合在一起。1979年,美国学者杰克逊和G.S.穆德霍尔卡(Govind S.Mudholkar)将PCA方法引入到多元统计过程控制中,并将残差分析(SPE)引入PCA中。PCA的理论发展日趋成熟,并在许多数据处理、模式识别与过程监测等领域得到了广泛应用。
PCA工作对象是一张样本×定量变量的数据表,数据表的容量大小为
n
×
m
n \times m
n×m(
n
n
n为数据样本的个数,
m
m
m为定量变量的个数)。它的工作目标就是要对这个多变量数据表进行最佳综合简化,将这个数据表中的信息重新调整组合,从中提取少数几个综合变量(即主成分变量),使它们能最大限度地概括原数据表中的信息。PCA算法是从简化方差、协方差结构来考虑的,而求取主成分是通过求取原始数据协方差矩阵的特征根和特征向量实现的。广泛应用于过程监测领域的PCA模型如下式所示:
T
=
X
P
T=XP
T=XP
X
^
=
T
P
T
=
∑
j
=
1
s
t
j
p
j
T
\hat{X}=TP^T=\sum_{j=1}^{s}t_jp_j^T
X^=TPT=j=1∑stjpjT
E
=
X
−
X
^
E=X-\hat{X}
E=X−X^
式中
t
j
t_j
tj为
n
n
n维主成分得分(score)向量,它实际上是原始数据矩阵
X
X
X在负载向量
p
j
p_j
pj方向上的投影;
p
j
p_j
pj为
m
m
m维负载(loading)向量,亦是主成分的投影方向。主成分得分向量之间是正交的;负载向量之间也是正交的。
T
T
T和
P
P
P分别
n
×
s
n \times s
n×s阶主成分得分矩阵和
m
×
s
m \times s
m×s阶负载矩阵;
s
s
s为模型中所保留的主成分个数,其确定方法包括常用的累积贡献率法和交叉检验法;由主成分得分向量和负载向量重构得到,即是由PCA模型反推得到的原始数据矩阵
X
X
X的系统性信息;
E
E
E则为残差信息矩阵。