Mahout 中 kmeans的参数

1)    Path Input : 所有待聚类的数据点的路劲,参数不可缺

2)    Path clusters :存储每个簇中心的路劲,参数不可缺

3)    Path output :聚类结果存储的路劲,参数不可缺,如果指定了簇的个数,则该路劲下文件可为空

4)    DistanceMeasure measure :数据点间的距离计算方法,参数可缺,默认是 SquaredEuclidean 算方法

     提供参数值:   ChebyshevDistanceMeasure 切比雪夫距离

                    CosineDistanceMeasure 余弦距离

                    EuclideanDistanceMeasure 欧氏距离

                    MahalanobisDistanceMeasure 马氏距离

                    ManhattanDistanceMeasure 曼哈顿距离

                   MinkowskiDistanceMeasure 闵可夫斯基距离

                   SquaredEuclideanDistanceMeasure 欧氏距离 ( 不采取平方根 )

                   TanimotoDistanceMeasure  Tanimoto 系数距离

                   还有一些基于权重的距离计算方法:

                   WeightedDistanceMeasure

                    WeightedEuclideanDistanceMeasureWeightedManhattanDistanceMeasure

5)  Double convergenceDelta: 收敛系数 新的簇中心与上次的簇中心的的距离不能超过 convergenceDelta ,如果超过,则继续迭代,否则停止迭代。参数可缺,默认值是 0.5

6)  int maxIterations : 最大迭代次数,如果迭代次数小于 maxIterations ,继续迭代,否则停止跌打,与 5) 中的 convergenceDelta 满足任何一个停止迭代的条件,则停止迭代。参数不可缺。

7)  boolean runClustering :如果是 true 则在计算簇中心后,计算每个数据点属于哪个簇,否则计算簇中心后结束,参数可缺,默认为 true

8)  clusteringOption :采用单机或者 Map/Reduce 的方法计算。参数可缺,默认是 mapreduce

9)  int numClustersOption :簇的个数,参数可缺。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值