聚类 - 5 - 谱和谱聚类

原创于 2016-07-20 11:51:28 发布 · 4.9k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #算法

机器学习专栏收录该内容

61 篇文章

订阅专栏

本文深入解析了谱聚类这一基于图论的聚类方法。通过详细介绍谱聚类的基本概念、核心算法及其变种，帮助读者理解如何利用拉普拉斯矩阵进行聚类分析。

本总结是是个人为防止遗忘而作，不得转载和商用。

谱

什么是谱？

先说说咱们口头上经常说的“某个人靠不靠谱”，一般，如果一个人遵守行为准则（即：此人言而有信、说到做到），那这个人就靠谱，反正这个人就不靠谱。

反映到坐标轴上的话，如果这条线代表行为准则：

如果一个人的行为不会偏离行为准则很多，那就说这个人“靠谱”，如下图：

反之，如果一个人的行为总偏离行为准则很多，那就说这个人“不靠谱”，如下图：

最后对应到机器学习的中，谱的定义就是：

方阵作为线性算子，它的所有特征值的全体统称方阵的谱；

方阵的谱半径为最大的特征值；

矩阵A的谱半径：(A^TA)的最大特征值。

其实，这里谱的本质是伪逆，是SVD中奇异值的平方。

谱聚类

谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的目的。

谱分析的思想

1，给定一组数据x 1 ,x2 ,...x n ，记任意两个点之间的相似度(―距离”的减函数)为s ij <xi,xj>，形成相似度图(similarity graph)：G=(V,E) 。如果x i 和x j 之间的相似度s ij 大于一定的阈值，那么，两个点是连接的，权值记做s ij。

总之这一步就是得出一个n*n的邻接矩阵，方阵中的每个元素sij代表第i个元素和第j个元素之间的相似度

2，接下来，可以用相似度图来解决样本数据的聚类问题：找到图的一个划分，形成若干个组(Group)，使得不同组之间有较低的权值，组内有较高的权值。

若干概念

在上面思想的基础上，我们来整理一些概念。

无向图：G(V, E)

邻接矩阵（是对称阵）：

W = (w_ij)，i,j = 1, 2, ..., n

其中w_ij表示第i个元素和第j个元素之间的相似度(相似度的计算见“聚类 -1 - 聚类介绍”)。然后规定自己和自己的相似度为0(自己和自己的相似度当然是最大的，所以不用管)，即w_ii = 0，即：

邻接矩阵的主对角线都是0。

又因为“第i个元素和第j个元素之间的相似度” = “第j个元素和第i个元素之间的相似度”，即w_ij= w_ji，所以：

邻接矩阵对称。

第i个样本的度：

即：第i个样本和其他所有样本的相似度的和。

度矩阵（是对角阵）：

求出第i个样本的度之后，将其写到一个n*n的矩阵的对角线上，该矩阵的其他元素都是0，如下：

d1 0 ... 0

0 d2... 0

0 ... 0 . 0

0 ... 0 ......dn

这个矩阵就是度矩阵。

拉普拉斯矩阵（是对称阵）：

未正则的拉普拉斯矩阵：L= 度矩阵(D) - 邻接矩阵(W)

正则的拉普拉斯矩阵

对称拉普拉斯矩阵：Lsym = D^-(1/2)·L·D^(1/2)= I - D^-(1/2)·W·D^(1/2)

随机游走拉普拉斯矩阵：L_rw= D^-1L = I - D^-1W

PS：因为D是对角阵，所以D^-(1/2)只需要把D的对角线上的元素开根后取倒数就好。

谱聚类算法：未正则拉普拉斯矩阵

输入：n个点{p i }，簇的数目k

步骤：

1，计算n×n的相似度矩阵W和度矩阵D；

2，计算拉普拉斯矩阵L=D-W；

PS：L=D-W是计算前k小的特征向量，如果是L=W-D则是计算前k大。

3，计算L的前k个特征向量（特征值对应的特征向量）u1 ,u2 ,...,uk ；

PS：如果L是个n*n的矩阵，那u1就是有n个元素的向量，uk同理。

4，将k个列向量u1 ,u2,...,uk 组成矩阵U，U∈R^n×k ；

PS：U是个n行k列的矩阵，第一行就是表征原始第一号样本，只不过原始第一号样本有n个值，而这里是用k个值表征的原始第一号样本（和SVD的原理有些像 -- 这句话看不懂那建议你看看我总结的SVD），其他行同理。

5，对于i=1,2,...,n,令y i ∈R^k是U的第i行的向量；

6，使用k-means算法将点(y i )i=1,2,...,n 聚类成簇C1 ,C2 ,...Ck ；即：在第四步的解释中已经说明：U的每一行就是一个样本，那就把这一个个样本代入K-means中聚类就好。

7，输出簇A1 ,A2,...Ak ，其中，Ai={j|y_j∈C_i}

谱聚类算法：对称拉普拉斯矩阵

1，把“谱聚类算法：未正则拉普拉斯矩阵”第二步的L=D-W改成L= D^-(1/2)·(D-W)·D^(1/2)2，在把“谱聚类算法：未正则拉普拉斯矩阵”的第五步和第六步之间添加一步：对于i=1,2,...,n,将y i ∈R k 依次单位化，使得|y i |=1；

其他都一样。

谱聚类算法：随机游走拉普拉斯矩阵

把“谱聚类算法：未正则拉普拉斯矩阵”第二步的L=D-W改成L=D^-1(D-W)，其他都一样。

3 条评论

Manghoze 2017.11.03
我想请教下，这个特征矩阵U的k值，是否对应样本中n的属性的某K的属性？为什么可以用每行来表示样本呢？
- 血影雪梦回复Manghoze 2017.11.22
  [reply]Manghoze[/reply] 问题1：特征矩阵第一行 U1 的第 k 个值代表“第一个样本的第 k 个特征” 问题2：这是人为定义的。

zheguzai100 2017.09.14
1. 最后对称拉普拉斯矩阵重新计算 Yi 使得|y i |=1 意思是将样本Yi 的 k个属性值之和 =1 ，即 Yi = Yi / rowSums(Yi) ? 2. PS：L=D-W是计算前k小的特征向量，如果是L=W-D则是计算前k大，这个'k'值是否跟pca一样需要 eig$value>1 and cumsum(eig$value)/sum(eig$value)>0.8 ??
- 血影雪梦回复zheguzai100 2017.11.22
  [reply]zheguzai100[/reply] 问题1：是的问题2：乱码了，看不懂....

ZQ_ZHU 2017.07.27
那如果k等于n时聚类结果会怎么样呢？
- 血影雪梦回复ZQ_ZHU 2017.08.21
  [reply]zzq060143[/reply] 好吧..关于这个问题，因为这种情况只满足“一个样本一个类”的情况，而在实际工作中这种极端情况是属于小概率事件的小概率事件的，嘛，硬要回答的话聚类结果就是：一个样本一个类。
- ZQ_ZHU回复血影雪梦 2017.08.17
  [reply]xueyingxue001[/reply] 具体意义的话肯定没有，就是看的时候突然想到的，所以就想请教下嘛
- 血影雪梦回复ZQ_ZHU 2017.08.14
  [reply]zzq060143[/reply] k=n? k=样本数目吗？如图是这个意思的话，那我只能反问了：这样有意义吗？

suinlove 2017.01.22
对称拉普拉斯矩阵：Lsym = D-(1/2)·L·D(1/2)= I - D-(1/2)·W·D(1/2) 这个是不是错了，我怎么感觉应该是 I - D-(1/2)·W·D-(1/2) 啊
- 血影雪梦回复suinlove 2017.01.23
  [reply]suinlove[/reply] 我没写错，注意字母。因为L = D-W 所以Lsym = D^-(1/2)·L·D^(1/2) = D^-(1/2)·(D-W)·D^(1/2) = D^-(1/2)·D·D^(1/2) - D^-(1/2)·W·D^(1/2) = I - D^-(1/2)·W·D^(1/2)

评论 10

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

血影雪梦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。