Spark K-means实践

最新推荐文章于 2020-09-25 11:15:20 发布

向阳争渡

最新推荐文章于 2020-09-25 11:15:20 发布

阅读量517

点赞数

分类专栏：大数据/Spark 文章标签： Spark Mllib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyang_yangqi/article/details/79044258

版权

大数据/Spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

K-Means聚类算法原理

聚类分析是一个无监督的学习的过程，一般用来对数据对象按照其特征属性进行分组。

适用场景：客户分群、欺诈检测、图像分析等领域

K-Means算法是一个迭代式算法，主要步骤如下：

第一步，选K个点作为初始聚类中心。
第二步，计算其余所有点到聚类中心的距离，并把每个点划分到离它最近的聚类中心所在的聚类中去。
第三步，重新计算每个聚类中所有点的平均直，并将其作为新的聚类中心点。
最后，重复 (二)，(三) 步的过程，直至聚类中心不再发生改变，或者算法达到预定的迭代次数，又或聚类中心的改变小于预先设定的阀值。

在实际应用中，K-means算法必须面对的两个问题：

聚类个数K的选择
初始中心点的选择。选择不同的聚类中心可能会导致聚类结果的差异

Spark MLlib K-means 算法的实现在初始聚类点的选择上，借鉴了一个叫 K-means||的类 K-means++ 实现。K-means++ 算法在初始点选择上遵循一个基本原则: 初始聚类中心点相互之间的距离应该尽可能的远。基本步骤如下:

第一步，从数据集X中随即选择一个点作为第一个初始点
第二步，计算数据集中所以点与最新选择的中心点的距离D(X)
第三步，选择下一个中心点，使得

最大
第四部，重复 (二),(三) 步过程，直到 K 个初始点选择完成。

如何选择K
前面提到 K 的选择是 K-means 算法的关键，Spark MLlib 在 KMeansModel 类里提供了 computeCost 方法，该方法通过计算所有数据点到其最近的中心点的平方和来评估聚类的效果。一般来说，同样的迭代次数和算法跑的次数，这个值越小代表聚类的效果越好。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。