机器学习实战——Kmeans聚类算法

最新推荐文章于 2025-05-05 14:54:51 发布

原创

最新推荐文章于 2025-05-05 14:54:51 发布

· 1.8k 阅读

6 ·

版权

文章标签：

#机器学习 #K均值聚类 #均值聚类算法 #kmeans

本文介绍了K-均值聚类的基本思想、算法流程，以及kmeans++算法的选择策略，同时讨论了聚类效果的评价指标如ARI和Silhouette Coefficient，并讲述了在sklearn库中的实现及其主要参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习实战——Kmeans聚类算法

1 聚类算法介绍
- 1.1 K-均值聚类
- 1.2 聚类效果的评价
2 sklearn中的实现

1 聚类算法介绍

在无监督学习中，训练样本的标记是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。聚类分析是无监督学习中的典型代表，其中比较常见的聚类算法有：K-均值聚类、密度聚类与层次聚类。接下来的文章逐一对三种聚类算法进行介绍。

1.1 K-均值聚类

K-均值聚类的基本思想是，对于给定的样本集，随机选择 k 个点作为初始点，按照样本间的距离大小，将样本集划分为 k 个簇，且簇内的点均方误差尽量小，簇间的点均方误差尽量大。假设给定样本集为 $D=\{x_1,x_2,...,x_m\}$ ,划分的簇 $C=\{C_1,C_2,...,C_k\}$ ,则其划分簇的平方误差数学表达式如下：