k-means

Kmeans思想及算法流程:首先Kmeans是一种无监督的聚类算法。对于给定的样本集,按照样本之间的距离大小,将样本划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。算法流程:1、给各个簇中心以适当的初值。2、更新样本x1,x2,…,xn对应的簇标签y1,y2,…,yn。argmin是使目标函数取最小值时的变量值3、更新各个簇中心。其中y=1,2,…,c上式中,...
摘要由CSDN通过智能技术生成

Kmeans思想及算法流程:

首先Kmeans是一种无监督的聚类算法。对于给定的样本集,按照样本之间的距离大小,将样本划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。

算法流程:

1、给各个簇中心以适当的初值。

2、更新样本x1,x2,…,xn对应的簇标签y1,y2,…,yn。

argmin是使目标函数取最小值时的变量值

3、更新各个簇中心。

其中y=1,2,…,c

上式中, ny为属于簇y的样本总数。

4、直到簇标签达到收敛精度为止,否则重复2,3步的计算。

K值的确定:

在实际的应用中,主要两种方法进行K值的确定:

1、经验法:在实际的工作中,可以结合业务的场景和需求,来决定分几类以确定K值。

2、肘部法则:在使用聚类算法时,如果没有指定聚类的数量,即K值,则可以通过肘部法则来进行对K值得确定。肘部法则是通过成本函数来刻画的,其是通过将不同K值得成本函数刻画出来,随着K值的增大,平均畸变程度会不断减小且每个类包含的样本数会减少,于是样本离其重心会更近。但是,随着值继续增大,平均畸变程度的改善效果会不断减低。因此找出在K值增大的过程中,畸变程度下降幅度最大的位置所对应的K较为合理。

注:

成本函数:各个类的畸变程度之和与其内部成员位置距离的平方和,最优解是以成本函数最小化为目标。公式如下:

其中是第k个质心的位置。

3、规则法:K=     (此种方法存在一定的缺点:可能导致聚类的数目较大)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值