基于平方误差的聚类算法(Squared error-based clustering algorithm)——K-means算法详解

最新推荐文章于 2023-05-28 18:39:00 发布

老实人小李

最新推荐文章于 2023-05-28 18:39:00 发布

阅读量1.3k

点赞数

分类专栏：聚类算法文章标签：聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43660703/article/details/108636301

版权

聚类算法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1 牧师-村名模型

K-means 有一个著名的解释：牧师—村民模型：

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的村民，于是每个村民到离自己家最近的布道点去听课。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的村民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个村民又去了离自己最近的布道点……
就这样，牧师每个礼拜更新自己的位置，村民根据自己的情况选择布道点，最终稳定了下来。

我们可以看到该牧师的目的是为了让每个村民到其最近中心点的距离和最小。

2 算法步骤

所以 K-means 的算法步骤为：

选择初始化的 k 个样本作为初始聚类中心 $a=a_1,a_2,...,a_k$ ；
针对数据集中每个样本 $x_i$ 计算它到k个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；
针对每个类别 $a_j$ ，重新计算它的聚类中心 $a_j=\frac{1}{|c_i|}\sum_{x\in c_i}x$ （即属于该类的所有样本的质心）；
重复上面 2 3 两步操作，直到达到某个中止条件（迭代次数、最小误差变化等）。

3 伪代码

function K-Means(输入数据，中心点个数K)
获取输入数据的维度Dim和个数N
随机生成K个Dim维的点
while(算法未收敛)
对N个点：计算每个点属于哪一类。
对于K个中心点：
1，找出所有属于自己这一类的所有数据点
2，把自己的坐标修改为这些数据点的中心点坐标
end
输出结果：
end

4 优缺点

优点：

容易理解，聚类效果不错，虽然是局部最优，但往往局部最优就够了；
处理大数据集的时候，该算法可以保证较好的伸缩性；
当簇近似高斯分布的时候，效果非常不错；
算法复杂度低。

缺点：

K 值需要人为设定，不同 K 值得到的结果不一样；
对初始的簇中心敏感，不同选取方式会得到不同结果；
对异常值敏感；
样本只能归为一类，不适合多分类任务；
不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类。

老实人小李

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于平方误差的聚类算法(Squared error-based clustering algorithm)——K-means算法详解

1 牧师-村名模型K-means 有一个著名的解释：牧师—村民模型：有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的村民，于是每个村民到离自己家最近的布道点去听课。听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的村民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个村民又去了离自己最近的布道点……就这样，牧师每
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

老实人小李 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。