李宏毅-DeepLearning-2017-Unsupervised Learning:Neighbor Embedding

数据降维的方法:
Manifold Learning(流行学习)
1、什么是流形

流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上这些数据只要比较低的维度就能唯一的表示。所以直观上来讲,一个流形好比是一个d维的空间,在一个m维的空间中(m>d)被扭曲之后的结果。需要注意的是流形并不是一个形状,而是一个空间。举个例子来说,比如说一块布,可以把它看成一个二维的平面,这是一个二维的空间,现在我们把它扭一扭(三维空间),它就变成了一个流形,当然不扭的时候,它也是一个流形,欧式空间是流形的一种特殊情况。如下图所示
  
在这里插入图片描述
流形具有在局部与欧式空间同胚的空间,也就是它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。这就给降维带来了很大的启发,若低维流形嵌入到了高维空间,此时样本在高维空间的分布虽然复杂,但在局部上仍具有欧式空间的性质,因此可以在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。而且当数据被降维到二维和三维时,就可以进行可视化,因此流形学习也可以被用于可视化。
[1]Locally Linear Embedding(LLE)局部线性嵌入
局部线性嵌入的思想:只是试图去保持领域内样本之间的关系。具体如下图所示,样本从高维空间映射到低维空间后,各个领域内的样本之间的线性关系不变。
1)求最小值的Wij,固定住Wij,第一步根据邻域关系计算出所有的样本的领域重构系数w,也就是找出每一个样本和其领域内的样本之间的线性关系

2)在另外一个空间找到同样Wij关系的两个Zi,Zj,第二步就是根据领域重构系数不变,去求每个样本在低维空间的坐标

在这里插入图片描述
在这里插入图片描述
2)zai在这里插入图片描述
[2]Laplacian Eigenmaps
1)找一个graph,去降低维度的方法
在这里插入图片描述
问题:

在这里插入图片描述
高维的点做成低维的点,完成低维的可视化
降维前做相似度分析P
降维后做相似度分析Q
KL计算两个分布的相近程度
在这里插入图片描述
计算概率的方法:两个评估的方式:SNE tSNE tSNE更好的可视化,放大gap
在这里插入图片描述
在这里插入图片描述

LLE算法总结:

主要优点:

1)可以学习任意维的局部线性的低维流形。

2)算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易。

3)可以处理非线性的数据,能进行非线性降维。

主要缺点:

1)算法所学习的流形只能是不闭合的,且样本集是稠密的。

2)算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响。

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【流行学习简介】:假设数据是均匀采样于一个高维欧氏空间中的低维流形流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的方法如主成分分析(PCA)和线性判别分析(LDA),非线行流形学习算法包括等距映射(Isomap),拉普拉斯特征映射(LE)等。 【文件包括】: (1)12篇在流形学习理论中具有里程碑意义的文献: [2000] A Global Geometric Framework for Nonlinear Dimensionality Reduction [2000] Nonlinear Dimensionality Reduction by Locally Linear Embedding [2000] the Manifold Ways of Perception [2003] Hessian Eigen-maps: New Locally Linear Embedding Techniques for High-dimensional Data [2004] Locality Pursuit Embedding [2005] Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment [2005] 高维数据流形的低维嵌入嵌入维数研究 [2005] 基于放大因子和延伸方向研究流形学习算法 [2005] 一种改进的局部切空间排列算法 [2006] 流形学习概述 [2008] Agent普适机器学习分类器 [2008] 基于流形学习的纤维丛模型研究 其中,前两篇在2000年刊登在Science上。 (2)一篇介绍这些文献的总论短文,梳理了文献的门类,介绍了如何更快地从体系上了解流形学习技术。 【注】:这些资料的总价值在100美元左右,均有英文版本,本人吐血奉献,希望大家能从中收益。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值