创建Wordcount项目
导入jar包,建议将Hadoop下的所有jar包导出
1.先根据路径将share下的jar包都筛选出来。再新建一个文件夹,将所有jar复制到该文件夹下,方便导包时使用。
2.在eclipse下进行导包
选择刚才新建的文件文件夹将其中的jar包都导入
3.判断程序是否能成功运行
如图则运行成功,注意自己程序的输出
程序运行成功后,将程序导出成jar包 。
注意导出的jar包所存放的位置
打开终端运行程序
开启hdfs start-all.sh
创建hdfs目录 hadoop dfs -mkdir /目录名
创建txt文件,用于存放输入的单词: gedit 文件名
将文件放入目录下 hadoop dfs -put 文件名 /目录名
检查目录下是否有文件存在 hadoop dfs -ls /目录名
执行命令 hadoop jar jar 包路径 包名/主类名 输入文件 输出文件
注意:
1.jar包路径如有多个层级要全部写出,不然无法读取到jar包。如~/study/wordcount
2.包名/主类名 创建eclipse项目时所使用的包名和运行的类名,也可以通过点开导出的jar包查看主类的路径
3.输出文件/out 会自动生成不需要自己创建,若文件名重复可以使用其他的文件名或使用hadoop dfs -rm -r /文件名删除
运行成功的标志
读取输出文件 hadoop dfs -ls /输出文件名
读文件内容 hadoop dfs -cat / 输出文件名/part-r-00000