聚类算法

一、数据模型

1.简介

mahout的DataModel为自定义Vector,具体实现常用的有DenseVector、RandomAccessSparseVector、SequentialAccessSparseVector;
1. DenseVector:它的实现就是一个浮点数数组,对向量里所有域都进行存储,适合用于存储密集向量。
2. RandomAccessSparseVector: 基于浮点数的 HashMap 实现的,key 是整形 (int) 类型,value 是浮点数 (double) 类型,它只存储向量中不为空的值,并提供随机访问。
3. SequentialAccessSparseVector:实现为整形 (int) 类型和浮点数 (double) 类型的并行数组,它也只存储向量中不为空的值,但只提供顺序访问。

2.应用场景
    用户可以根据自己算法的需求选择合适的向量实现类,如果算法需要很多随机访问,应该选择 DenseVector 或者 RandomAccessSparseVector,如果大部分都是顺序访问,SequentialAccessVector 的效果应该更好。`

二、算法

  1. K-means算法
    算法思路:
    1. 选择中心点,设置距离阈值
    2. 计算每个点与中心点的距离
    3. 分类
    2.mahout计算距离方法:

    1. EuclideanDistanceMeasure//欧几里得
  2. Canopy算法
    算法思路:
    1. 预设两个距离阈值T1,T2(T1>T2)
    2. 选择一个点,通过T1选择以这个点为中心的Canopy,过滤掉距离这个点T2的点
    3. 循环2,直到点为空

三、参考文档:
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/index.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值