mahout在数据集的操作

1.下载mahout0.13.0

2.解压

3.配置环境变量

#MAHOUT_HOME
export MAHOUT_HOME=/opt/cdh5.15.0/mahout-0.13.0
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$PATH:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin

4. 下载数据集:http://archive.ics.uci.edu/ml/databases/synthetic_control/

5.Hadoop环境(略),具体查看前面的文章。

6.将数据文件上传到hdfs,/user/zuowei.zhang/testdata,注意:文件路径必须一样。

7.运行任务:

hadoop jar /opt/cdh5.15.0/mahout-0.13.0/mahout-examples-0.13.0-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

8.运行结果,会自动生成output路径:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值