k-means算法详解

最新推荐文章于 2025-03-19 21:53:58 发布

zhihua_oba

最新推荐文章于 2025-03-19 21:53:58 发布

阅读量3.2w

点赞数 9

分类专栏：机器学习实战文章标签：算法

本文链接：https://blog.csdn.net/zhihua_oba/article/details/73832614

版权

机器学习实战专栏收录该内容

19 篇文章

订阅专栏

k-means算法详解

主要内容
- k-means算法简介
- k-means算法详解
- k-means算法优缺点分析
- k-means算法改进算法k-means++

1、k-means算法简介
k-means算法是一种聚类算法，所谓聚类，即根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于，聚类过程为无监督过程，即待处理数据对象没有任何先验知识，而分类过程为有监督过程，即存在有先验知识的训练数据集。
k-means算法中的k代表类簇个数，means代表类簇内数据对象的均值（这种均值是一种对类簇中心的描述），因此，k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。数据对象间距离的计算有很多种，k-means算法通常采用欧氏距离来计算数据对象间的距离。

2、k-means算法详解
k-means算法以距离作为数据对象间相似性度量的标准，通常采用欧氏距离来计算数据对象间的距离。下面给出欧式距离的计算公式：

d i s t (x i, x j) = \sum d = 1 D (x i, d - x j, d) 2 - - - - - - - - - - - - -  ⎷   (1)

$dist(x_{i},x_{j})=\sqrt{\sum_{d=1}^{D}(x_{i,d}-x_{j,d})^{2}}\ \ \ \ \ (1)$ 其中，

D D $D$ 表示数据对象的属性个数。
k-means算法聚类过程中，每次迭代，对应的类簇中心需要重新计算（更新）：对应类簇中所有数据对象的均值，即为更新后该类簇的类簇中心。定义第

k

$k$ 个类簇的类簇中心为

Centerk C e n t e r k $Center_{k}$ ，则类簇中心更新方式如下：

C e n t e r k = 1 | C k | \sum x i \in C k x i (2)

$Center_{k}=\frac{1}{|C_{k}|}\sum_{x_{i}\in C_{k}}x_{i}\ \ \ \ \ (2)$ 其中，

Ck C k $C_{k}$ 表示第

k k $k$ 个类簇，

| C_{k} |

$|C_{k}|$ 表示第

k k $k$ 个类簇中数据对象的个数，这里的求和是指类簇

C_{k}

$C_{k}$ 中所有元素在每列属性上的和，因此

Centerk C e n t e r k $Center_{k}$ 也是一个含有

D D $D$ 个属性的向量，表示为

C e n t e r_{k} = (C e n t e r_{k, 1}, C e n t e r_{k, 2}, . . ., C e n t e r_{k, D})

$Center_{k}=(Center_{k,1},Center_{k,2},...,Center_{k,D})$ 。
k-means算法需要不断地迭代来重新划分类簇，并更新类簇中心，那么迭代终止的条件是什么呢？一般情况，有两种方法来终止迭代：一种方法是设定迭代次数

T T $T$ ，当到达第

T

$T$ 次迭代，则终止迭代，此时所得类簇即为最终聚类结果；另一种方法是采用误差平方和准则函数，函数模型如下：

J = \sum k = 1 K \sum x i \in C k d i s t (x i, C e n t e r k) (3)

$J=\sum_{k=1}^{K}\sum_{x_{i}\in C_{k}}dist(x_{i},Center_{k})\ \ \ \ \ (3)$ 其中，

K K $K$ 表示类簇个数。当两次迭代

J

$J$ 的差值小于某一阈值时，即

ΔJ<δ Δ J < δ $\Delta J<\delta$ 时，则终止迭代，此时所得类簇即为最终聚类结果。
k-means算法思想可描述为：首先初始化

K K $K$ 个类簇中心；然后计算各个数据对象到聚类中心的距离，把数据对象划分至距离其最近的聚类中心所在类簇中；接着根据所得类簇，更新类簇中心；然后继续计算各个数据对象到聚类中心的距离，把数据对象划分至距离其最近的聚类中心所在类簇中；接着根据所得类簇，继续更新类簇中心；……一直迭代，直到达到最大迭代次数