谱聚类算法原理（一）

root-cause

已于 2022-04-20 10:17:46 修改

阅读量449

点赞数

分类专栏：聚类算法原理解析及实现文章标签：聚类

于 2022-04-20 10:07:10 首次发布

原文链接：https://www.cnblogs.com/pinard/p/6221564.html

版权

聚类算法原理解析及实现专栏收录该内容

13 篇文章 23 订阅

订阅专栏

　谱聚类（spectral clustering）是广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多，更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时，个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。

1. 谱聚类概述

　　　　谱聚类是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

　　　　乍一看，这个算法原理的确简单，但是要完全理解这个算法的话，需要对图论中的无向图，线性代数和矩阵分析都有一定的了解。下面我们就从这些需要的基础知识开始，一步步学习谱聚类。

2. 谱聚类基础之一：无向权重图

　　　　由于谱聚类是基于图论的，因此我们首先温习下图的概念。对于一个图GG，我们一般用点的集合VV和边的集合EE来描述。即为G(V,E)G(V,E)。其中VV即为我们数据集里面所有的点(v1,v2,...vn)(v1,v2,...vn)。对于VV中的任意两个点，可以有边连接，也可以没有边连接。我们定义权重wijwij为点vivi和点vjvj之间的权重。由于我们是无向图，所以wij=wjiwij=wji。

.......

3. 谱聚类算法流程

　　　　铺垫了这么久，终于可以总结下谱聚类的基本流程了。一般来说，谱聚类主要的注意点为相似矩阵的生成方式（参见第二节），切图的方式（参见第六节）以及最后的聚类方法（参见第六节）。

　　　　最常用的相似矩阵的生成方式是基于高斯核距离的全连接方式，最常用的切图方式是Ncut。而到最后常用的聚类方法为K-Means。下面以Ncut总结谱聚类算法流程。

　　　　输入：样本集D=(x1,x2,...,xn)(x1,x2,...,xn)，相似矩阵的生成方式, 降维后的维度k1k1, 聚类方法，聚类后的维度k2k2

　　　　输出：簇划分C(c1,c2,...ck2)C(c1,c2,...ck2).　

　　　　1) 根据输入的相似矩阵的生成方式构建样本的相似矩阵S

　　　　2）根据相似矩阵S构建邻接矩阵W，构建度矩阵D

　　　　3）计算出拉普拉斯矩阵L

　　　　4）构建标准化后的拉普拉斯矩阵D−1/2LD−1/2D−1/2LD−1/2

　　　　5）计算D−1/2LD−1/2D−1/2LD−1/2最小的k1k1个特征值所各自对应的特征向量ff

　　　　6) 将各自对应的特征向量ff组成的矩阵按行标准化，最终组成n×k1n×k1维的特征矩阵F

　　　　7）对F中的每一行作为一个k1k1维的样本，共n个样本，用输入的聚类方法进行聚类，聚类维数为k2k2。

　　　　8）得到簇划分C(c1,c2,...ck2)C(c1,c2,...ck2).　　　　　　　　　

4. 谱聚类算法总结

　　　　谱聚类算法是一个使用起来简单，但是讲清楚却不是那么容易的算法，它需要你有一定的数学基础。如果你掌握了谱聚类，相信你会对矩阵分析，图论有更深入的理解。同时对降维里的主成分分析也会加深理解。

　　　　下面总结下谱聚类算法的优缺点。

　　　　谱聚类算法的主要优点有：

　　　　1）谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到

　　　　2）由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好。

　　　　谱聚类算法的主要缺点有：

　　　　1）如果最终聚类的维度非常高，则由于降维的幅度不够，谱聚类的运行速度和最后的聚类效果均不好。

　　　　2) 聚类效果依赖于相似矩阵，不同的相似矩阵得到的最终聚类效果可能很不同。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。