mahout安装

1.安装
[hadoop@h91 ~]$ tar -zxvf mahout-0.5-cdh3u5.tar.gz

[hadoop@h91 ~]$ vi .bash_profile
export MAHOUT_HOME=/home/hadoop/mahout-0.5-cdh3u5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-0.20.2-cdh3u5/conf
[hadoop@h91 ~]$ source .bash_profile


2.测试
[hadoop@h91 ~]$ cd mahout-0.5-cdh3u5/bin/
[hadoop@h91 bin]$ ./mahout

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -mkdir /user/hadoop/testdata

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -put /home/hadoop/mm.data /user/hadoop/testdata
(mm.data测试数据 WINDOWS下ISO目录中有)


[hadoop@h91 mahout-0.5-cdh3u5]$ bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
等待几分钟(做多次mp)

[hadoop@h91 mahout-0.5-cdh3u5]$ $HADOOP_HOME/bin/hadoop fs -ls output
Found 13 items
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusteredPoints
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/clusters-0
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-1
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusters-10
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-2
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-3
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-4
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-5
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-6
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-7
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-8
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-9
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/data

[hadoop@h91 ~]$ mkdir /home/hadoop/mahout-0.5-cdh3u5/examples/output

[hadoop@h91 mahout-0.5-cdh3u5]$ $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir /user/hadoop/output/clusters-10 --pointsDir /user/hadoop/output/clusteredPoints --output $MAHOUT_HOME/examples/output/clusteranalyze.txt

[hadoop@h91 output]$ ls
clusteranalyze.txt

[hadoop@h91 output]$ more clusteranalyze.txt
VL代表这是一个cluster,n=57代表该cluster有57个点,c=[...]代表该cluster的中心向量点,r=[...]代表cluster的半径

==================================================
SequenceFile
1.对于某些应用而言,需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理,将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性,针对上述情况,Hadoop开发了一组更高层次的容器SequenceFile。

2. 考虑日志文件,其中每一条日志记录是一行文本。如果想记录二进制类型,纯文本是不合适的。这种情况下,Hadoop的SequenceFile类非常合适,因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时,可以自己选择键,比如由LongWritable类型表示的时间戳,以及值可以是Writable类型,用于表示日志记录的数量。SequenceFile同样为可以作为小文件的容器。而HDFS和 MapReduce是针对大文件进行优化的,所以通过SequenceFile类型将小文件包装起来,可以获得更高效率的存储和处理。

3. SequenceFile类内部有两个比较主要的内部类分别是SequenceFile.Reader和SequenceFile.Writer



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值