聚类算法总结

本文总结了K均值聚类算法的调优方法,包括数据归一化、离群点处理、K值的选择(手肘法、Gap Statistic、轮廓系数)以及Hopkins Statistic的运用。此外,还介绍了K-means++改进算法,以解决K均值的初始中心选择问题。最后,对比了K-means与KNN的区别。
摘要由CSDN通过智能技术生成

参考:https://www.cnblogs.com/think90/p/7133753.html

https://blog.csdn.net/weixin_44868393/article/details/106975503

https://www.cnblogs.com/pinard/p/6164214.html

        K均值算法有一些缺点,例如受初值和离群点的影响每次的结果不稳定、结果通常不是全局最优而是局部最优解、无法很好地解决数据簇分布差别比较大的情况(比如一类是另一类样本数量的100倍)、不太适用于离散分类等。但是瑕不掩瑜,K均值聚类的优点也是很明显和突出的,主要体现在:对于大数据集,K均值聚类算法相对是可伸缩和高效的,它的计算复杂度是O(NKt)接近于线性,其中N是数据对象的数目,K是聚类的簇数,t是迭代的轮数。

 一、调优

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值