机器学习2k-means聚类

最新推荐文章于 2022-07-14 18:23:34 发布

哆啦A梦呀

最新推荐文章于 2022-07-14 18:23:34 发布

阅读量523

点赞数

文章标签：聚类算法机器学习 python

本文链接：https://blog.csdn.net/weixin_44731995/article/details/109187611

版权

本文详细介绍了k-means聚类算法的工作原理，包括初始化质心、计算欧氏距离、算法实现过程和使用sklearn库的实现。同时讨论了评估指标如组内离差平方和（inertia）和轮廓系数，以及k值选择的影响。k-means算法适用于直观易懂的迭代式聚类，但存在收敛到局部最优和需预设簇数量的问题。

摘要由CSDN通过智能技术生成

1、k-means：工作原理

k-means一种基于形心的技术，k-means算法把簇的形心（质心）定义为簇内点的均值。它的处理流程如下。首先在D中随机地选择k个对象，每个对象代表一个簇的初始均值或中心。对剩下的每隔对象，根据其余各个簇中心的欧式距离，将它分配到最相似的簇。然后，k-means 算法迭代地改善簇内变差。对于每隔簇，它使用上次迭代分配到该簇的对象。计算新的均值，然后，使用更新后的均值作为新的簇中心，重新分配所有的对象。迭代继续，知道分配稳定，即本轮形成的簇与前一轮形成的簇相同。k-means过程如下：

方法：

确定要将数据聚合成几类，参数k

从数据当中，随机的选择k个点，称为聚类中心点

计算所有其他点，到这三个点的距离。然后找出离每个数据点最近的中心点。就将该点划分到这个中心点所代表的的簇当中去。

所有点都会被划分到k个簇当中去。

重新计算K个簇的质心，作为下一次聚类的中心点

重复上面的3-5步的过程，重新进行聚类

停止条件，第一个：当重新聚类后，所有样本点归属类别都没有发生变化的时候。

2、k-means代码实现：

1、计算欧氏距离

def euclDistance(vector1, vector2):
return np.sqrt(sum((vector2 - vector1) ** 2)) 2、初始化质心

def initCentroids(data, k):
numSamples, dim = data.shape
# k个质心，列数跟样本的列数一样
centroids = np.zeros((k, dim))
# 随机选出k个质心
for i in range(k):
# 随机选取一个样本的索引
index = int(np.random.uniform(0, numSamples))
# 作为初始化的质心
centroids[i, :] = data[index, :]
return centroids

3、算法实现过程

#传入数据集和k值 def kmeans(data, k):
# 计算样本个数
numSamples = data.shape[0]
# 样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差
clusterData = np.array(np.zeros((numSamples, 2)))
# 决定质心是否要改变的质量
clusterChanged = True
# 初始化质心
centroids = initCentroids(data, k)
while clusterChanged:
clusterChanged = False
# 循环每一个样本
for i in range(numSamples):
# 最小距离
minDist = 100000.0
# 定义样本所属的簇
minIndex = 0
# 循环计算每一个质心与该样本的距离
for j in range(k):
# 循环每一个质心和样本，计算距离
distance = euclDistance(centroids[j, :], data[i, :])
# 如果计算的距离小于最小距离，则更新最小距离
if distance < minDist:
minDist = distance
# 更新最小距离
clusterData[i, 1] = minDist
# 更新样本所属的簇
minIndex = j
# 如果样本的所属的簇发

最低0.47元/天解锁文章

哆啦A梦呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习2k-means聚类

K-means聚类1、k-means：工作原理2、k-means代码实现：3、k-means sklearn代码的实现：学习时间：学习产出：1、k-means：工作原理k-means一种基于形心的技术，k-means算法把簇的形心（质心）定义为簇内点的均值。它的处理流程如下。首先在D中随机地选择k个对象，每个对象代表一个簇的初始均值或中心。对剩下的每隔对象，根据其余各个簇中心的欧式距离，将它分配到最相似的簇。然后，k-means 算法迭代地改善簇内变差。对于每隔簇，它使用上次迭代分配到该簇的对象。计算新
复制链接

扫一扫