谱聚类概述
谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。
谱聚类与k-means
对比其他无监督聚类(如kmeans),spectral clustering的优点主要有以下:
- 过程对数据结构并没有太多的假设要求,如kmeans则要求数据为凸集。
- 可以通过构造稀疏similarity graph,使得对于更大的数据集表现出明显优于其他算法的计算速度
- 由于spectral clustering是对图切割处理,不会存在像kmeans聚类时将离散的小簇聚合在一起的情况。
- 无需像GMM一样对数据的概率分布做假设
同样,spectral clustering也有自己的缺点,主要存在于构图步骤,有如下:
- 对于选择不同的similarity graph比较敏感(如 epsilon-neighborhood, k-nearest neighborhood, full connected 等)
- 对于参数的选择也比较敏感(如epsilon-neighborhood的epsilon,k-nearest neighborhood的k)
参考文献:
谱聚类概述:
https://www.cnblogs.com/nxf-rabbit75/p/10442223.html
谱聚类(spectral clustering)及其实现详解:
https://blog.csdn.net/yc_1993/article/details/52997074