streaming kmean cluster 聚类算法实现和分析

    在项目开始的时候,对聚类算法作了调研,总共调研了三种算法,分别是kmeans 算法、streaming kmean算法、fast streaming kmean算法,这是在公司的第一个项目,收获还是很多的,无论是在项目还是在思维方式上,先说下自己在项目进行中的思维变化。

    场景选择

    之所以采用场景这个词,觉得还是很有代表性的,从学生到公司的员工,场景在变,学生的思维到员工的思维也在变,就拿算法来说,相同算法也是根据场景的变化。三种算法中,我一开始比较倾向于选择第三种,因为第二、三种算法都是来自顶级会议的论文,貌似很牛逼,自己花了2天时间分别实现了其中的算法也进行了评测,最终我们选择的是常规的kmeans算法,并稍作改进基本能满足系统要求,而且性能比后面两种要高很多。

    教训

    1.简单的算法往往非常有效2.算法都有它的应用场景,论文的算法到工程应用要做的改进有很多3.算法性能的优化是个长期的过程,而且工程中可以在时间和准确率上寻找到一个良好的平衡。4.工程中算法只是一个小模块,烂的算法可以靠其它的方法来补充达到比较好的效果。

    算法简介

    上面大体是从工作到现在的一些体会,基本都会在工作初期碰到,下面主要介绍下streaming kmeans的算法思想,虽然项目中没有用到,但其中的思想还是很有借鉴意义的,感兴趣的可以搜论文原文看看。从streaming可以看出,算法是基于流式的,文件中的数据只参与计算一次,算法对加入一篇文档到新的类别和产生新类的代价分别进行评估,当满足一定的阈值才会将文档添加到聚类中去或者产生新的聚类。算法和常见的kmeans算法主要有如下区别:

    a)所有文档只参与计算一次,不会重复参与计算

    b)聚类的个数是变化的,但是最终产生的聚类数目是小于等于k的

    c)添加到新类和产生新类需要满足一定条件的,不一定会选择最相似的类加入

    d)聚类的数目是动态变化的,而且文档的总数需要预估,文档的数量可以无限大,预估主要是为了对训练参数进行计算评估。

    算法的缺点:

    a)文档加入新类和产生新的聚类满足一定阈值和随机性,意味着聚类可能会越聚越不靠谱,中心点的偏差会逐渐变大

    b)训练参数过多,调试参数的过程比较痛苦,而且不一定能找到很有效的参数

    算法的源代码如下:

    cluster表示聚类,封装了些基本的操作。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值