机器学习中一些方向以及方法的大体解释

子空间学习:subspace learning

(1) 子空间学习是指通过投影实现高维特征向低维空间的映射,是一种经典的降维思想

例如人脸图像,如果每幅图像提取出来的特征是1000维,则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题,且很多人认为真实有效的人脸图像特征并没有那么高维,可能只有100维,即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维,就是子空间学习问题。在模式识别中,可能绝大多数的维数约简(降维,投影)算法都算是子空间学习,如PCA, LDA, LPP, LLE等等。子空间学习的主要问题,就是如何将特征从高维空间压缩到低维空间,需要保留什么样的信息,设定什么样的准则,低维空间的特征具有哪些特征等问题。

(2)子空间学习: 举例说明,比如你拿到了一组数据要做分类任务,然而数据分布在一个高维空间中,不太方便处理,维度太高导致采用的分类模型的复杂度也相应增高,最终导致分类模型容易过拟合。一般情况下,这个问题无法解决,但是数据中往往存在一些特性使得这个问题又有了可以解决的希望,比如数据其实分布在高维空间的一个子空间中,你拿到的高维数据其实是子空间中的无噪声数据+高维噪声数据,而这个子空间的维度其实不是很大,那么找出这个子空间,就能保证尽量不丢失信息又能降低数据维度,在这个子空间中做训练,就可以降低过拟合现象。常见的PCA LDA LLE 等都是基于spectral method(谱方法)的子空间学习方法,往往可以看做是kernel pca的特例。还有一类子空间学习方法是R. Vidal做的SSC(subspace clustering)系列,有相应的理论保证。广义上,子空间学习就是降维。

 

子空间分割:subspace segmentation

通常,在做子空间分割时,我们希望求取的表示系数矩阵(by稀疏表示低秩表示正则化最小二乘以及其它改进版本)成块对角结构,这样块的个数就等于子空间的维数(也即clustering number)。理想情况下,表示系数矩阵的秩应该等于子空间的维数,这样可达100%的分割效果。

 

子空间聚类:subspace clustering

聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类分析技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。

根据算法思想,传统的聚类算法可分以下五类 :① 划分方法:将数据集随机划分为k个子集,随后通过迭代重定位技术试图将数据对象从一个簇移到另一个簇来不断改进聚类的质量;②层次方法:对给定的数据对象集合进行层次的分解,根据层次的形成方法,又可以分为凝聚和分裂方法两大类;③基于密度的方法:根据领域对象的密度或者某种密度函数来生成聚类,使得每个类在给定范围的区域内必须至少包含一定数目的点;④基于网格的方法:将对象空间量化为有限数目的单元,形成一个网格结构,使所有聚类操作都在这个网格结构上进行,使聚类速度得到较大提高;⑤基于模型的方法:为每个类假定一个模型,寻找数据对给定模型的最佳拟合。

目前,聚类分析的研究集中在聚类方法的可伸缩性、对复杂形状和类型的数据进行聚类的有效性、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值