机器学习笔记（12）— K均值算法

最新推荐文章于 2023-03-19 10:30:47 发布

开门儿大弟子

最新推荐文章于 2023-03-19 10:30:47 发布

阅读量664

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45718019/article/details/107431548

版权

机器学习专栏收录该内容

16 篇文章 5 订阅

订阅专栏

本文主要介绍K均值的运行原理、代价函数、聚类数量的选择等内容。

1.运行原理

假如有以下数据集，并且要将其分为两类。
在这里插入图片描述
首先使用生成两个聚类中心（图中的红蓝点）。之后该算法会计算每个样本点和两个聚类中心的距离，根据距离的远近把样本点分配给聚类中心。

第一次聚类之后的结果如下：

在这里插入图片描述
之后K-均值算法根据之前计算出来的距离移动聚类中心，移动之后的结果如下所示。

之后重复之前的过程，完成聚类。

通过以上例子，可知K-均值的计算过程是：
首先随机初始化K个聚类中心。之后计算样本与K个聚类中心的距离，选择最近的聚类中心进行分类。

2.代价函数

K均值算法的代价函数为：
在这里插入图片描述
其中：μ_k代表第K个聚类中心，c^((m) )代表样本目前所属的聚类，μ_c (i)代表第i个样本所属的聚类中心。

3.聚类中心

3.1初始化

首先K的值要小于样本的数量，之后在样本中随机挑选K个样本点作为初始聚类中心，为了避免算法陷入局部最优解，可以多次初始化K值，然后多次（50-1000次）运行算法。之后选择代价函数最小的初始化K值。

3.2聚类中心的数量选择

通常的方法是多次选择不同的聚类中心比较代价函数的结果。
在这里插入图片描述
如图所示，在K=3时，代价函数变化最大，在3以后代价函数减低的较慢，如果选择k>3会增加计算时间，因此在这个例子中可以选择K=3.

聚类中心数量的选择大部分时候还是要依赖于实践经验，以上的方法知识为大家提供一个思路。

开门儿大弟子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（12）— K均值算法

本文主要介绍K均值的运行原理、代价函数、聚类数量的选择等内容。1.运行原理假如有以下数据集，并且要将其分为两类。首先使用生成两个聚类中心（图中的红蓝点）。之后该算法会计算每个样本点和两个聚类中心的距离，根据距离的远近把样本点分配给聚类中心。第一次聚类之后的结果如下：之后K-均值算法根据之前计算出来的距离移动聚类中心，移动之后的结果如下所示。之后重复之前的过程，完成聚类。通过以上例子，可知K-均值的计算过程是：首先随机初始化K个聚类中心。之后计算样本与K个聚类中心的距离，选择最近的聚
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。