K-均值聚类算法:机器学习的“小白鼠“_请简述 k-均值聚类算法的基本原理和优缺点。-CSDN博客

本文链接：https://blog.csdn.net/wwlsm_zql/article/details/138333185

K-均值聚类(K-Means Clustering)。作为一种无监督学习算法,K-均值聚类可以自动将相似的数据点归为一类,而无需事先标注数据,在数据挖掘、客户细分、图像分割等领域有广泛应用。下面就让我们一起来了解K-均值算法的基本原理、优缺点以及Python实现吧。

一、K-均值聚类的基本原理

K-均值聚类的核心思想很简单:将 n 个数据点划分到 k 个聚类中,使得每个聚类内数据点到聚类中心的距离平方和最小。其中,k 需要预先设定。算法流程如下:

随机选择 k 个数据点作为初始聚类中心
重复下面步骤,直到聚类结果不再变化:
a. 对每个数据点,计算到 k 个聚类中心的距离,并将其分配到距离最近的聚类
b. 更新每个聚类的中心为该聚类内所有点的均值

在这里插入图片描述

二、Python实现K-均值聚类

利用sklearn库,我们可以很容易实现K-均值聚类:

from sklearn.cluster import KMeans
import numpy as np

# 随机生成样本数据
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])

# 设置聚类数为2,进行聚类
kmeans = KMeans(n_clusters=2) 
kmeans.fit(X)

# 聚类结果
print(kmeans.labels_)    
print(kmeans.cluster_centers_)

输出:

[0 0 1 1 0 1]
[[1.16666667 1.46666667]
 [7.33333333 9.        ]]

可以看到,算法将6个点聚成2类,每一类的中心点坐标也被计算出来了。我们还可以用matplotlib将结果可视化:

import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='rainbow')  
plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], color='black')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()