mahout安装

最新推荐文章于 2021-02-28 01:26:36 发布

abothli

最新推荐文章于 2021-02-28 01:26:36 发布

阅读量242

点赞数

分类专栏：大数据推荐系统

本文链接：https://blog.csdn.net/xiaolong_4_2/article/details/80886220

版权

大数据推荐系统专栏收录该内容

1 篇文章 2 订阅

订阅专栏

1.安装
[hadoop@h91 ~]$ tar -zxvf mahout-0.5-cdh3u5.tar.gz

[hadoop@h91 ~]$ vi .bash_profile
export MAHOUT_HOME=/home/hadoop/mahout-0.5-cdh3u5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-0.20.2-cdh3u5/conf
[hadoop@h91 ~]$ source .bash_profile

2.测试
[hadoop@h91 ~]$ cd mahout-0.5-cdh3u5/bin/
[hadoop@h91 bin]$ ./mahout

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -mkdir /user/hadoop/testdata

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -put /home/hadoop/mm.data /user/hadoop/testdata
（mm.data测试数据 WINDOWS下ISO目录中有）

[hadoop@h91 mahout-0.5-cdh3u5]$ bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
等待几分钟（做多次mp）

[hadoop@h91 mahout-0.5-cdh3u5]$ $HADOOP_HOME/bin/hadoop fs -ls output
Found 13 items
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusteredPoints
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/clusters-0
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-1
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusters-10
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-2
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-3
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-4
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-5
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-6
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-7
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-8
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-9
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/data

[hadoop@h91 ~]$ mkdir /home/hadoop/mahout-0.5-cdh3u5/examples/output

[hadoop@h91 mahout-0.5-cdh3u5]$ $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir /user/hadoop/output/clusters-10 --pointsDir /user/hadoop/output/clusteredPoints --output $MAHOUT_HOME/examples/output/clusteranalyze.txt

[hadoop@h91 output]$ ls
clusteranalyze.txt

[hadoop@h91 output]$ more clusteranalyze.txt
VL代表这是一个cluster，n=57代表该cluster有57个点，c=[...]代表该cluster的中心向量点，r=[...]代表cluster的半径

==================================================
SequenceFile
1.对于某些应用而言，需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理，将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性，针对上述情况，Hadoop开发了一组更高层次的容器SequenceFile。

2. 考虑日志文件，其中每一条日志记录是一行文本。如果想记录二进制类型，纯文本是不合适的。这种情况下，Hadoop的SequenceFile类非常合适，因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时，可以自己选择键，比如由LongWritable类型表示的时间戳，以及值可以是Writable类型，用于表示日志记录的数量。SequenceFile同样为可以作为小文件的容器。而HDFS和 MapReduce是针对大文件进行优化的，所以通过SequenceFile类型将小文件包装起来，可以获得更高效率的存储和处理。

3. SequenceFile类内部有两个比较主要的内部类分别是SequenceFile.Reader和SequenceFile.Writer

abothli

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mahout安装

1.安装[hadoop@h91 ~]$ tar -zxvf mahout-0.5-cdh3u5.tar.gz[hadoop@h91 ~]$ vi .bash_profileexport MAHOUT_HOME=/home/hadoop/mahout-0.5-cdh3u5export HADOOP_CONF_DIR=/home/hadoop/hadoop-0.20.2-cdh3u5/conf[had...
复制链接

扫一扫

专栏目录