一、数据模型
1.简介
mahout的DataModel为自定义Vector,具体实现常用的有DenseVector、RandomAccessSparseVector、SequentialAccessSparseVector;
1. DenseVector:它的实现就是一个浮点数数组,对向量里所有域都进行存储,适合用于存储密集向量。
2. RandomAccessSparseVector: 基于浮点数的 HashMap 实现的,key 是整形 (int) 类型,value 是浮点数 (double) 类型,它只存储向量中不为空的值,并提供随机访问。
3. SequentialAccessSparseVector:实现为整形 (int) 类型和浮点数 (double) 类型的并行数组,它也只存储向量中不为空的值,但只提供顺序访问。
2.应用场景
用户可以根据自己算法的需求选择合适的向量实现类,如果算法需要很多随机访问,应该选择 DenseVector 或者 RandomAccessSparseVector,如果大部分都是顺序访问,SequentialAccessVector 的效果应该更好。`
二、算法
K-means算法
算法思路:
1. 选择中心点,设置距离阈值
2. 计算每个点与中心点的距离
3. 分类
2.mahout计算距离方法:- EuclideanDistanceMeasure//欧几里得
Canopy算法
算法思路:
1. 预设两个距离阈值T1,T2(T1>T2)
2. 选择一个点,通过T1选择以这个点为中心的Canopy,过滤掉距离这个点T2的点
3. 循环2,直到点为空
三、参考文档:
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/index.html