聚类算法

最新推荐文章于 2023-05-22 08:15:12 发布

凤鸣86

最新推荐文章于 2023-05-22 08:15:12 发布

阅读量394

点赞数

分类专栏：算法文章标签：算法

本文链接：https://blog.csdn.net/zfy1355/article/details/49152817

版权

算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、数据模型

1.简介

mahout的DataModel为自定义Vector,具体实现常用的有DenseVector、RandomAccessSparseVector、SequentialAccessSparseVector；
1. DenseVector：它的实现就是一个浮点数数组，对向量里所有域都进行存储，适合用于存储密集向量。
2. RandomAccessSparseVector：基于浮点数的 HashMap 实现的，key 是整形 (int) 类型，value 是浮点数 (double) 类型，它只存储向量中不为空的值，并提供随机访问。
3. SequentialAccessSparseVector：实现为整形 (int) 类型和浮点数 (double) 类型的并行数组，它也只存储向量中不为空的值，但只提供顺序访问。

2.应用场景

    用户可以根据自己算法的需求选择合适的向量实现类，如果算法需要很多随机访问，应该选择 DenseVector 或者 RandomAccessSparseVector，如果大部分都是顺序访问，SequentialAccessVector 的效果应该更好。`

二、算法

K-means算法
算法思路：
1. 选择中心点，设置距离阈值
2. 计算每个点与中心点的距离
3. 分类
2.mahout计算距离方法：
1. EuclideanDistanceMeasure//欧几里得
Canopy算法
算法思路：
1. 预设两个距离阈值T1,T2(T1>T2)
2. 选择一个点，通过T1选择以这个点为中心的Canopy,过滤掉距离这个点T2的点
3. 循环2，直到点为空