机器学习算法之数据降维
1、数据降维
数据降维的原因
在原始的高维空间中,包含冗余信息和噪声信息,会在实际应用中引入误差,影响准确率;而降维可以提取数据内部的本质结构,减少冗余信息和噪声信息造成的误差,提高应用中的精度。
降维的好处
直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。
降维的本质
学习一个映射函数 , f:x->y 其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常 y的维度小于 x的维度。f可能是显式的或隐式的、线性的或非线性的。
降维方法
主成分分析(Principal Component Analysis)
等距映射(Isometric Mapping)
局部线性嵌入(Locally Linear Embedding)
……
2、算法原理
特殊情况
最大方差思想:使用较少的数据维度保留住较多的原数据特性
首先考虑 M=1,定义这个空间的投影方向为 D维向量 u1,出于方便且不失一般性,令