JAVA实现K-means聚类

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/51086879

http://www.llwjy.com/blogdetail/bf27dd0be964886d11185743779e40e0.html

个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽~

-------------------------------------------------------------------------------------------------

      在开始之前先打一个小小的广告,自己创建一个QQ群:321903218,点击链接加入群【Lucene案例开发】,主要用于交流如何使用Lucene来创建站内搜索后台,同时还会不定期的在群内开相关的公开课,感兴趣的童鞋可以加入交流。


      在上一篇博客中已经介绍了KNN分类算法,这篇博客将重点介绍下K-means聚类算法。K-means算法是比较经典的聚类算法,算法的基本思想是选取K个点(随机)作为中心进行聚类,然后对聚类的结果计算该类的质心,通过迭代的方法不断更新质心,直到质心不变或稍微移动为止,则最后的聚类结果就是最后的聚类结果。下面首先介绍下K-means具体的算法步骤。


K-means算法

      在前面已经大概的介绍了下K-means,下面就介绍下具体的算法描述:

1)选取K个点作为初始质心;

2)对每个样本分别计算到K个质心的相似度或距离,将该样本划分到相似度最高或距离最短的质心所在类;

3)对该轮聚类结果,计算每一个类别的质心,新的质心作为下一轮的质心;

4)判断算法是否满足终止条件,满足终止条件结束,否则继续第2、3、4步。

      在介绍算法之前,我们首先看下K-means算法聚类平面200,000个点聚成34个类别的结果(如下图)

img


算法实现

      K-means聚类算法整体思想比较简单,下面 就分步介绍如何用JAVA来实现K-means算法。


一、K-means算法基础属性

      在K-means算法中,有几个重要的指标,比如K值、最大迭代次数等,对于这些指标,我们统一把它们设置为类的属性,如下:

private List<T> dataArray;//待分类的原始值
private int K = 3;//将要分成的类别个数
private int maxClusterTimes = 500;//最大迭代次数
private List<List<T>> clusterList;//聚类的结果
private List<T> clusteringCenterT;//质心


二、初始质心的选择

      K-means聚类算法的结果很大程度收到初始质心的选取,这了为了保证有充分的随机性,对于初始质心的选择这里采用完全随机的方法,先把待分类的数据随机打乱,然后把前K个样本作为初始质心(通过多次迭代,会减少初始质心的影响)。

List<T> centerT = new ArrayList<T>(size);
//对数据进行打乱
Collections.shuffle(dataArray);
for (int i &
  • 12
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值