文章目录
相关文章:
无监督学习 | KMeans之Sklearn实现:电影评分聚类
无监督学习 | 层次聚类 之凝聚聚类原理及Sklearn实现
无监督学习 | GMM 高斯混合聚类原理及Sklearn实现
1. 原型聚类
原型聚类
亦称“基于原型的聚类”(prototypr-based clustering)。此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务重及其常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式,将产生不同的算法,如 KMeans、LVQ、高斯混合。下面介绍 KMeans 算法,我们将在下一篇文章中介绍高斯混合算法。
“原型”是指样本空间具有代表性的点
1.1 KMeans
给定样本集 D = x 1 , x 2 , ⋯ , x m D={x_1,x_2,\cdots,x_m} D=x1,x2,⋯,xm,“$k$ 均值
”(k-means)算法针对聚类所得簇划分 C = C 1 , C 2 , ⋯ , C k C={C_1,C_2,\cdots,C_k} C=C1,C2,⋯,Ck 最小化平方误差(残差平方和 S E S_E SE):
E = ∑ i = 1 k ∑ x ∈ C i ∥ x − μ i ∥ 2 2 (1) E=\sum_{i=1}^k \sum_{x\in C_i}\|x-\mu_i\|_2^2 \tag{1} E=i=1∑kx∈Ci∑∥x−μi∥22(1)
其中 μ i = 1 ∣ C i ∣ ∑ x ∈ C i x \mu_i=\frac{1}{|C_i|}\sum_{x\in C_i}x μi=∣Ci∣