本文结构如下:
线性降维方法
主成分分析法
线性判别法
奇异值分解法
因子分析法
非线性降维方法~~流形学习简介
说到维度,其目的是用来进行特征选择和特征提取,注意特征选择和特征提取这二者的不同之处:
特征选择:选择重要特征子集,删除其余特征。
特征提取:由原始特征形成较少的新特征。
在特征提取中,我们要找到k个新的维度的集合,这些维度是原来k个维度的组合,这个方法可以是监督的,也可以是非监督的,
pca-非监督的
lda(线性判别分析)-监督的
这两个都是线性投影来进行降为的方法。
另外,因子分析,和多维标定(mds)也是非监督的线性降为方法
降维的作用:
降低时间复杂度和空间复
节省了提取不必要特征的开销
去掉数据集中夹杂的噪
较简单的模型在小数据集上有更强的鲁棒性
当数据能有较少的特征进行解释,我们可以更好 的解释数据,使得我们可以提取知识。
实现数据可视化