词频统计就是获取HDFS上的input文件夹下的所有的文本文件,通过MapReduce编程,将里面的所有单词进行统计出个数。
1、文件准备
开启hadoop
清空HDFS上的input和output文件夹
创建需要统计的文本
新建input文件夹,并把文本上传
2、打包Java文件
运行代码,没有错误就可以开始打包
选择对应的java文件右键导出,Runnable JAR file选择下一步
这里注意一定要选到对应的java文件,finish后面弹出的窗口一直OK确认下去。
3、在shell命令行运行代码
在/usr/local/hadoop路径下运行shell命令:./bin/hadoop jar ./myapp/WordCount.jar input output
出现这些说明运行成功了
查看output下所有文件即可得到结果
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.l