streaming kmean cluster 聚类算法实现和分析

最新推荐文章于 2023-06-20 18:30:00 发布

着凉的石头

最新推荐文章于 2023-06-20 18:30:00 发布

阅读量3.9k

点赞数 1

分类专栏：工作聚类算法文章标签：算法聚类 streaming kmeans

本文链接：https://blog.csdn.net/hotallen/article/details/12718961

版权

在项目开始的时候，对聚类算法作了调研，总共调研了三种算法，分别是kmeans 算法、streaming kmean算法、fast streaming kmean算法，这是在公司的第一个项目，收获还是很多的，无论是在项目还是在思维方式上，先说下自己在项目进行中的思维变化。

场景选择

之所以采用场景这个词，觉得还是很有代表性的，从学生到公司的员工，场景在变，学生的思维到员工的思维也在变，就拿算法来说，相同算法也是根据场景的变化。三种算法中，我一开始比较倾向于选择第三种，因为第二、三种算法都是来自顶级会议的论文，貌似很牛逼，自己花了2天时间分别实现了其中的算法也进行了评测，最终我们选择的是常规的kmeans算法,并稍作改进基本能满足系统要求，而且性能比后面两种要高很多。

教训

1.简单的算法往往非常有效2.算法都有它的应用场景，论文的算法到工程应用要做的改进有很多3.算法性能的优化是个长期的过程，而且工程中可以在时间和准确率上寻找到一个良好的平衡。4.工程中算法只是一个小模块，烂的算法可以靠其它的方法来补充达到比较好的效果。

算法简介

上面大体是从工作到现在的一些体会，基本都会在工作初期碰到，下面主要介绍下streaming kmeans的算法思想，虽然项目中没有用到，但其中的思想还是很有借鉴意义的，感兴趣的可以搜论文原文看看。从streaming可以看出，算法是基于流式的，文件中的数据只参与计算一次，算法对加入一篇文档到新的类别和产生新类的代价分别进行评估，当满足一定的阈值才会将文档添加到聚类中去或者产生新的聚类。算法和常见的kmeans算法主要有如下区别：

a)所有文档只参与计算一次，不会重复参与计算

b)聚类的个数是变化的，但是最终产生的聚类数目是小于等于k的

c)添加到新类和产生新类需要满足一定条件的，不一定会选择最相似的类加入

d)聚类的数目是动态变化的，而且文档的总数需要预估，文档的数量可以无限大，预估主要是为了对训练参数进行计算评估。

算法的缺点：

a)文档加入新类和产生新的聚类满足一定阈值和随机性，意味着聚类可能会越聚越不靠谱，中心点的偏差会逐渐变大

b)训练参数过多，调试参数的过程比较痛苦，而且不一定能找到很有效的参数

算法的源代码如下：

cluster表示聚类，封装了些基本的操作。

最低0.47元/天解锁文章

着凉的石头

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
streaming kmean cluster 聚类算法实现和分析

主要介绍下streaming kmeans的算法思想，虽然项目中没有用到，但其中的思想还是很有借鉴意义的，感兴趣的可以搜论文原文看看。从streaming可以看出，算法是基于流式的，文件中的数据只参与计算一次，算法对加入一篇文档到新的类别和产生新类的代价分别进行评估，当满足一定的阈值才会将文档添加到聚类中去或者产生新的聚类。算法和常见的kmeans算法主要有如下区别：
复制链接

扫一扫

专栏目录