机器学习2k-means聚类

本文详细介绍了k-means聚类算法的工作原理,包括初始化质心、计算欧氏距离、算法实现过程和使用sklearn库的实现。同时讨论了评估指标如组内离差平方和(inertia)和轮廓系数,以及k值选择的影响。k-means算法适用于直观易懂的迭代式聚类,但存在收敛到局部最优和需预设簇数量的问题。
摘要由CSDN通过智能技术生成

1、k-means:工作原理

k-means一种基于形心的技术,k-means算法把簇的形心(质心)定义为簇内点的均值。它的处理流程如下。首先在D中随机地选择k个对象,每个对象代表一个簇的初始均值或中心。对剩下的每隔对象,根据其余各个簇中心的欧式距离,将它分配到最相似的簇。然后,k-means 算法迭代地改善簇内变差。对于每隔簇,它使用上次迭代分配到该簇的对象。计算新的均值,然后,使用更新后的均值作为新的簇中心,重新分配所有的对象。迭代继续,知道分配稳定,即本轮形成的簇与前一轮形成的簇相同。k-means过程如下:

方法:

  1. 确定要将数据聚合成几类,参数k
  2. 从数据当中,随机的选择k个点,称为聚类中心点
  3. 计算所有其他点,到这三个点的距离。然后 找出离每个数据点最近的中心点。就将该点划分到 这个中心点所代表的的簇当中去。
  4. 所有点都会被划分到k个簇当中去。
  5. 重新计算K个簇的质心,作为下一次聚类的中心点
  6. 重复上面的3-5步的过程,重新进行聚类
  7. 停止条件,第一个:当重新聚类后,所有样本 点归属类别都没有发生变化的时候。

2、k-means代码实现:

1、计算欧氏距离

def euclDistance(vector1, vector2):
return np.sqrt(sum((vector2 - vector1) ** 2)) 2、初始化质心

def initCentroids(data, k):
numSamples, dim = data.shape
# k个质心,列数跟样本的列数一样
centroids = np.zeros((k, dim))
# 随机选出k个质心
for i in range(k):
# 随机选取一个样本的索引
index = int(np.random.uniform(0, numSamples))
# 作为初始化的质心
centroids[i, :] = data[index, :]
return centroids

3、算法实现过程

#传入数据集和k值 def kmeans(data, k):
# 计算样本个数
numSamples = data.shape[0]
# 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差
clusterData = np.array(np.zeros((numSamples, 2)))
# 决定质心是否要改变的质量
clusterChanged = True
# 初始化质心
centroids = initCentroids(data, k)
while clusterChanged:
clusterChanged = False
# 循环每一个样本
for i in range(numSamples):
# 最小距离
minDist = 100000.0
# 定义样本所属的簇
minIndex = 0
# 循环计算每一个质心与该样本的距离
for j in range(k):
# 循环每一个质心和样本,计算距离
distance = euclDistance(centroids[j, :], data[i, :])
# 如果计算的距离小于最小距离,则更新最小距离
if distance < minDist:
minDist = distance
# 更新最小距离
clusterData[i, 1] = minDist
# 更新样本所属的簇
minIndex = j
# 如果样本的所属的簇发

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值