维数灾难背景
p
现实应用中属性维度成千上万,在高维度情况下会带来很多麻烦,而且当维度大的时候,
数据样本一般分布的非常稀疏,这是所有学习算法要面对的问题,降维技术应运而生。
l
数据降维
p
降维是对事物的特征进行压缩和筛选,该项任务相对比较抽象
。如果没有特定领域知识,
无法预先决定采用哪些数据,比如在人脸识别任务中,如果直接使用图像的原始像素信
息,数据的维度会非常高,通常会利用降维技术对图像进行处理,保留下最具有区分度
的像素组合。
一、常见降维方法
SVD
PCA
LDA
LLE
1.1 SVD-奇异值分解
奇异值分解是一个能适用于任意矩阵的一种分解方法。口奇异值分解发现矩阵中的冗余并提供用于消除它的格式。
奇异值分解就是利用隐藏的特征建立起矩阵行和列之间的联系。
1.2 PCA-主成分分析
思想:寻找表示数据分布的最优子空间(降维,可以去掉线性相关性)。
数学原理:取协方差矩阵前s个最大特征值对应的特征向量构成映射矩阵,对数据进行降维。
SVD分解原理基础
通过SVD分解获取了要研究的矩阵A的重要性质,如下∶
一个大的复杂的矩阵A可以用三个小的矩阵(U、D、V)相乘来表示,小矩阵描述的是矩阵A的重要特性。
。矩阵A的秩=矩阵A非0的奇异值个数。
-A的非零奇异值的平方等于ATA和AAT的非零特征值。
PCA算法流程输入:
n维特征的样本数据集D。输出∶降到p维后的样本集D‘
。对所有样本构成的矩阵X进行去中心化;求出X的协方差矩阵C;
。利用特征值分解,求出协方差矩阵C的特征值及对应的特征向量;
将特征向量按对应特征值大小从上到下按行排列成矩阵,根据实际业务场景,取前p列组成新的坐标矩阵W。
。令原始数据集与新坐标举证W相乘,得到的新的数据集(矩阵)即为降到p维后的坐标。
1.3 LDA - 线性判别分析
思想:寻找可分性判据最大的子空间。
用到了Fisher的思想,即寻找一个向量,使得降维后类内散度最小,类间散度最大;其
实就是取对应的特征向量构成映射矩阵,对数据进行处理。
LDA是一种监督学习的降维技术,将数据在低维度上进行投影,投影后希
望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大
LDA(Linear Discriminant Analysis)
线性判别式分析,也叫Fisher线性判别,是模式识别中的经典算法,它的数据集的每个
样本是有类别输出的。
思想:
投影后类内距离最小,类间距离最大
。
线性判别:
将高维的特征投影到低维的最优向量空间,以达到抽取分类信息和压缩特征
空间维数的效果
,投影后保证原特征样本在新的子空间有最大的类间距离和最小的类内距离,即该方法能使得投影后模式样本的类间散布矩阵最大,同时类内散布矩阵最小。
![](https://i-blog.csdnimg.cn/blog_migrate/b7273742357e808054637cf6aa23835f.png)
PCA无标签 LDA有标签
1.4 LLE - 局部线性嵌入
局部线性嵌入(Locally Linear Embedding,简称LLE)也是非常重要的降维方法。和
传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的
线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像识别,高维数据可视化等领域。
LLE
属于流形学习的一种,和传统的
PCA
、
LDA
相比,
不再是关注样本方差和样本间协方差
,而是一种关注
降维时保持样本局部的线性特征
的方法。
LLE
方法执行思路是:将高维流形分成很多小块,每一小块可以用平面代替,然后再在
低维中重新拼合起来,且要求保留各点之间的拓扑关系不变。
LLE
首先
假设数据在较小的局部是线性的
,即某一个数据能够用它邻域中的几个样本来
线性表示,可以通过
k-
近邻的思想来找到它的近邻点。在降维之后,希望样本点对应的
投影尽量保持同样的线性关系,即投影前后线性关系的权重参数不变或者改变很小。
线性关系只在样本的附近起作用
,
离样本远的样本对局部的线性关系没有影响
,因此降
维的复杂度降低了很多