本实验参考实验楼的 Mahout介绍、安装与应用案例
实验环境:centos7 64位
mahout0.9
1:下载数据:地址为 http://qwone.com/~jason/20Newsgroups/ ,下载20news-bydate.tar.gz数据包。
使用xftp将数据传输到centos7,解压,在mahout-0.9下新建data,将解压后的两个文件夹转移到data里:
tar -xzf 20news-bydate.tar.gz
mkdir /app/mahout-0.6/data
mv 20news-bydate-t* /app/mahout-0.6/data
在0.9版本的安装目录下$MAHOUT_HOME/examples/bin下有个脚本文件classifu-20newsgroups.sh,
这个脚本中执行过程是和前面分布执行结果是一致的,只不过将各个API用shell脚本封装到一起了。
从0.7版本开始,Mahout移除了命令行调用的API:prepare20newsgroups、trainclassifier和testclassifier,
只能通过shell脚本执行。执行 $MAHOUT_HOME/examples/bin/classify-20newsgroups.sh 四个选项中选择第一个选项,