isomap降维算法

Isomap是一种非线性降维方法,属于流形学习的一部分,通过保持数据间的测地距离进行降维。该算法首先构建邻接图,然后计算样本点间的最短路径(测地距离),再用MDS进行降维。在实际应用中,选择合适的邻近点数K对结果有很大影响。文章介绍了Isomap在sklearn中的实现,并鼓励读者深入学习和应用。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

降维算法分为线性和非线性两大类,主成分分析PCA属于经典的线性降维,而t-SNE, MDS等属于非线性降维。在非线性降维中,有一个重要的概念叫做流形学习manifold learing。

首先来看下什么叫做流形,流形是一般几何对象的总称,包括各种维度的曲线和曲面,简单理解就是数据本身的分布满足一定的几何特征,以下图中的"瑞士卷"为例

可以看到,在三维空间中,样本点的分布构成了一个瑞士卷的形状,这个瑞士卷就是一个流形。通过流形学习来降维,就是假设数据的分布存在一个潜在的流形,降维其实是将流形在低维空间展开。

从而延伸出了测地线的概念,以上图中的两个黑色点为例,如果不考虑流形的情况下,计算二者的距离可能直接就是欧式距离了,但是在考虑流形的情况下,数据只能在流形上移动,通过邻近点的欧式距离累加来计算,如下图所示

终慢慢延伸,得出两点之间的距离就是红色曲线标记的距离。所谓流形学习,就是在降维时,考虑数据的流形。

在流形学习中,isomap和局部性嵌入LLE都是典型的算法。isomap全称如下

isometric mapping

称之为等距映射,该算法的本质是通过流形中的测地距离来表示高维空间的距离,然后通过MDS算法进行降维。具体的步骤如下

1. 构建邻接图,有两种方法,第一种指定半径阈值,半径内的点为邻近点,第二种为K近邻,在邻近点之间基于欧式距离构建一个邻接图

2. 计算样本点测地距离矩阵,本质是计算邻接图中样本点之间的最短路径,可以选择Floyd-Warshall或者Dijkstra算法

3. 通过MDS算法对测地距离矩阵进行降维

在sickit-learn中使用isomap的代码如下

>>> from sklearn.datasets import load_digits
>>> from sklearn.manifold import Isomap
>>> X, _ = load_digits(return_X_y=True)
>>> X.shape
(1797, 64)
>>> embedding = Isomap(n_components=2)
>>> X_transformed = embedding.fit_transform(X)
>>> X_transformed.shape
(1797, 2)

在sickit-learn中,就是通过指定邻近点数目K

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值