初步学习MapReduce编程——词频统计

最新推荐文章于 2024-05-24 09:45:00 发布

不争气大王

最新推荐文章于 2024-05-24 09:45:00 发布

阅读量779

点赞数

分类专栏： # MapReduce

本文链接：https://blog.csdn.net/weixin_45990325/article/details/118096966

版权

词频统计就是获取HDFS上的input文件夹下的所有的文本文件，通过MapReduce编程，将里面的所有单词进行统计出个数。

1、文件准备

开启hadoop
在这里插入图片描述
清空HDFS上的input和output文件夹

创建需要统计的文本

新建input文件夹，并把文本上传

2、打包Java文件

运行代码，没有错误就可以开始打包
在这里插入图片描述

选择对应的java文件右键导出，Runnable JAR file选择下一步
在这里插入图片描述
这里注意一定要选到对应的java文件，finish后面弹出的窗口一直OK确认下去。

3、在shell命令行运行代码

在/usr/local/hadoop路径下运行shell命令：./bin/hadoop jar ./myapp/WordCount.jar input output
出现这些说明运行成功了
在这里插入图片描述
查看output下所有文件即可得到结果

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.l