在直观印象中,说起聚类算法,首先想到的k-means.
k-means作为经典的聚类算法,应用范围很广,但是在运行前要指定聚类的数量n,这个值对于最终的计算结果有很大的影响.而现在也没有通用的方法来得到这个值.
本文介绍了包括k-means在内的多种聚类算法,可以在实际中灵活使用.
聚类常用算法
- K-means
- Mean-Shift Clustering algorithm
- DBSCAN, Density-Based Spatial Clusting of Applications with Noise
- EM using GMM, Expectation-Maximization(EM) Clusting using Gaussian Mixture Models
- Agglomerative Hierarchical Clustering
1 K-means
KMeans算法聚类数据,是通过将不同样本分离成方差相等的n组,最小化惯性(inertia)或者叫类内平方和(within-cluster sum-of-squares).这个算法需要指定聚类的数量.可应用于大量样本的情况,在很多不同领域有大量的应用.
K-means算法将一个样本数量N的集合X划分成K个类别C,每个类别被描述成该类别下样本的平均值uj.通常把这些平均值称为’质心’,注意到通常情况下这些质心并不是集合X中的点,尽管他