数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。
数据降维的目的
数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。
数据降维的方法
主要的方法是线性映射和非线性映射方法两大类。
线性映射
线性映射方法的代表方法有:PCA(Principal Component Analysis),LDA(Discriminant Analysis)
PCA方法简介
主成分分析的思想,就是线性代数里面的K-L变换,就是在均方误差准则下失真最小的一种变换。是将原空间变换到特征向量空间内,数学表示为 Ax=λx 。
特征向量和特征值的意义:分别表示不同频率及其幅度。
特征向量和特征值的直白理解:想在特征空间内找到某个向量 x ,使得其满足
A∗[β1,β2,...,βk]=[λ1β1,λ2β2,...,λkβk] 。
当然在实际用时,取最大的前几个足矣。
PCA计算是用的协方差矩阵 U 的分解特征向量。
1. 样本矩阵去中心化(每个数据减去对应列的均值),得到
2. U 表示样本矩阵
E(X−X0)(Y−Y0)=∑mi=11m(xi−x0)(yi−y0) 。
期望的定义: E(x)=∑xi∗p(xi)
3. U=[β]∗Λ∗[β]−1