K-Means算法

K-Means算法

算法步骤

K-Means算法,即K均值算法,是最常见的一种聚类算法。顾名思义,该算法会将数据集分为K个簇,每个簇使用簇内所有样本的均值来表示,我们将该均值成为‘质心’。具体步骤如下:

  1. 从样本中选择K个点作为初始质心
  2. 计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中。
  3. 计算每个簇内所有样本的均值,并使用该均值更新簇的质心。
  4. 重复步骤2与3,直到达到以下条件之一结束:
    ▷质心的位置变化小于指定的阈值。
    ▷达到最大迭代次数。
优化目标

K-Means算法的目标就是选择合适的质心,使得在每个簇内,样本距离质心的距离尽可能的小。这样就可以保证簇内样本具有较高的相似性。我们可以使用最小化簇内误差平方和(within-cluster sum-of-squares SSE)来作为优化算法的量化目标(目标函数),簇内误差平方和也称为簇惯性(inertia)。

在这里插入图片描述

  • k:簇的数量。
  • mi:第i个簇含有的样本数量。
  • μi:第i个簇的质心。
  • ||xj - μi||:第i个簇中,每个样本xj与质心μi的距离。
算法优点与缺点

K-Means优点如下:

  1. 理解与实现简单。
  2. 可以很好的扩展到大量样本中。
  3. 广泛应用于不同领域。

同时,K-Means算法也具有一定的缺点:

  1. 需要事先指定K值,如果K值选择不当,聚类效果可能不佳。
  2. 聚类结果受初始质心的影响,可能会收敛到局部最小值。
  3. 适用于凸形的数据分布,对于条形或不规则形状的数据,效果较差。
程序演示

假设班级有50名学生参加期末考试,考试科目为语文、数学,现在想根据分数将学生分成若干个类别。

#首先绘制学生成绩的散点图

import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.size'] = 12

np.random.seed(1) #设置随机种子
#生成样本数据
x = np.random.randint(70,100,size=(50,2)) #从70-100中随机生成100个数,数组形状为50行2列
plt.scatter(x[:, 0]<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值