一、目的
一般而言,在高维空间中,当数据样本的个数远远小于其维度时,数据样本在高维空间中会呈现稀疏性分布,即分布在高维空间中的数据样本密度极小。这会导致直接对高维数据进行分析往往效果很差,一方面是因为当数据样本密度较小时,我们很难挖掘出数据之间存在的内在结构关系;另一方面,高维数据中存在的冗余信息会对分析过程带来极大的干扰。此外,直接处理高维数据往往会导致算法具有过高的时间和空间复杂度。已有研究表明,高维数据通常都是嵌入在一个低维子空间中的。因此,使用机器学习算法从给定的高维数据中挖掘出嵌入在高维空间中的低维子空间,即找到高维数据的低维表达方式,是研究高维数据的一种重要方法。将高维数据在低维子空间中进行重新表达,一方面增加了数据的分布密度,有利于我们发现数据之间存在的内部结构关系;另一方面去除了数据中存在的冗余信息,有利于我们分析数据中哪些信息是重要的。
二、思想
稀疏约束有助于抽取更高效的特征,
低秩约束有助于准确地发现数据的内在几何结构
三、分类
为此,一个直接的思路是对高维数据学习一个映射函数进行降维,即将高维数据映射到低维子空间,使得原始数据在低维子空间中是密集的,距离计算是方便的。
1、基于映射的子空间学习方法
学习一个从高维空间到低维空间的映射函数,该映射函数能够将当前描述模式的维度压缩到一个紧凑的数据描述模式下,以使此类模式尽可能少的特征就能展示原有数据的内在结构,从而提高后续识别的精度和运算速度
2、基于表达的子空间学习方法
寻找针对当前模式的最具代表性的描述来抓住数据的内在结构,以期望此类模式的特征能够尽可能地区分不同的类
[1]仪双燕.基于稀疏和低秩约束的主成分分析方法研究[D].哈尔滨工业大学,2017.