Kmeans的改进-kmeans++算法的聚类中心初始点选取和蓄水池采样算法

Kmeans算法因初始中心点随机选择导致聚类结果不稳定。Kmeans++通过加权的蓄水池采样策略解决这一问题,提高聚类准确性。本文概述了Kmeans++的算法流程,分析其复杂度,并提及蓄水池采样的实际应用。
摘要由CSDN通过智能技术生成

要解决的问题

kmeans算法存在的一个问题是初始中心的选取是随机的,造成聚类的结果也是随机的,一般的做法是进行多次重复整个聚类过程,然后选取聚类效果好的。Kmeans++算法可以很好的解决初始点的选取问题,本文简单进行了总结和实现,代码方面还有很多不完善的地方,仅供参考,欢迎拍砖。

算法流程

a). 首先从数据集中随机选取一个点作为中心点,并加入到中心点集合centers中

b). 对于数据集中的每个点i,都和集合centers中的点进行计算,得到最近距离d[i],计算完之后得到sum(d[i])

c). 取一个随机值random,使random落在sum(d[i])内,然后random -= d[i] 直到random < 0的时候,这个i即为下一个中心点,将这个点加入到centers中

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值