无监督学习 | KMeans与KMeans++原理


相关文章:

机器学习 | 目录

机器学习 | 聚类评估指标

机器学习 | 距离计算

无监督学习 | KMeans之Sklearn实现:电影评分聚类

无监督学习 | 层次聚类 之凝聚聚类原理及Sklearn实现

无监督学习 | DBSCAN 原理及Sklearn实现

无监督学习 | GMM 高斯混合聚类原理及Sklearn实现

1. 原型聚类

原型聚类亦称“基于原型的聚类”(prototypr-based clustering)。此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务重及其常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式,将产生不同的算法,如 KMeans、LVQ、高斯混合。下面介绍 KMeans 算法,我们将在下一篇文章中介绍高斯混合算法。

“原型”是指样本空间具有代表性的点

1.1 KMeans

给定样本集 D = x 1 , x 2 , ⋯   , x m D={x_1,x_2,\cdots,x_m} D=x1,x2,,xm,“$k$ 均值”(k-means)算法针对聚类所得簇划分 C = C 1 , C 2 , ⋯   , C k C={C_1,C_2,\cdots,C_k} C=C1,C2,,Ck 最小化平方误差(残差平方和 S E S_E SE):

E = ∑ i = 1 k ∑ x ∈ C i ∥ x − μ i ∥ 2 2 (1) E=\sum_{i=1}^k \sum_{x\in C_i}\|x-\mu_i\|_2^2 \tag{1} E=i=1kxCixμi22(1)

其中 μ i = 1 ∣ C i ∣ ∑ x ∈ C i x \mu_i=\frac{1}{|C_i|}\sum_{x\in C_i}x μi=Ci

### 回答1: Kmeans 聚类算法是一种常用的聚类算法,它的原理是将数据划分为k个簇,每个簇由距离中心最近的数据点组成。算法首先随机选取k个中心点,然后将每个数据点指派到距离它最近的中心点所在的簇。接下来,算法会调整每个簇的中心点,使其成为该簇内所有数据点的平均值。最后,算法会不断地重复这个过程,直到所有簇的中心点不再发生变化为止。 简单来说,Kmeans 聚类算法通过不断地调整簇的中心点并将数据点指派到距离它最近的中心点所在的簇,来逐步将数据划分成若干个簇。 ### 回答2: K-means算法是一种常见的聚类算法,其原理是将数据集划分成预定的K个簇,以使簇内的数据点相似度最高,而不同簇之间的相似度最低。 算法的步骤如下: 1. 随机选择K个数据点作为初始的聚类中心。 2. 对于剩余的每个数据点,根据其与各个聚类中心之间的距离,将其划分到距离最近的簇中。 3. 更新每个簇的聚类中心,即取该簇内所有数据点的均值作为新的聚类中心。 4. 重复步骤2和步骤3,直到簇中心不再发生变化或者达到预定的迭代次数。 K-means算法的核心思想是最小化簇内的均方误差(SSE),即各个数据点到其所属簇中心的距离之和。通过迭代更新簇中心,将数据点划分到距离最近的簇中,不断减小SSE,最终得到较好的聚类结果。 K-means算法的优点是简单、易于实现,并且具有良好的可扩展性。但是该算法对初始聚类中心的选择敏感,可能会收敛到局部最优解。此外,K-means算法对于非球形簇结构效果较差。 在实际应用中,可以通过调整K的取值、多次随机初始化以及使用改进的聚类算法(如K-means++算法)来提升K-means算法的性能。 ### 回答3: K均值(K-means)聚类算法是一种常用的无监督学习方法,其原理如下: 1. 初始化:选择要划分的簇数量k,随机选取k个样本作为初始聚类中心。 2. 聚类分配:将所有样本分配给最近的聚类中心,形成k个簇。 3. 更新聚类中心:计算每个簇中样本的平均值,得到新的聚类中心。 4. 重复步骤2和步骤3,直到聚类中心不再变化或达到预定的迭代次数。 K均值算法的目标是最小化簇内样本之间的平方误差和,该误差也称为簇内离散度度量。具体算法表达为: 1. 初始化聚类中心:随机选择k个样本作为初始的聚类中心。 2. 分配样本:对于每个样本,计算其与每个聚类中心的距离,将其分配给距离最近的聚类中心。 3. 更新聚类中心:对于每个簇,计算该簇中所有样本的平均值,得到新的聚类中心。 4. 重复步骤2和步骤3,直到聚类中心不再变化。 K均值算法最后得到的聚类结果,会使得每个样本与所属簇的聚类中心的距离最小化。由于该算法的原理较为简单和高效,因此在许多领域中被广泛应用,例如数据挖掘、模式识别和图像分析等。但需要注意的是,K均值算法对初始聚类中心的选择敏感,可能会收敛到局部最优解。为了解决这个问题,可以多次运行算法并选择最优结果,或者采用其他改进的聚类算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值