Eclipse利用Hadoop平台实现统计单词个数

最新推荐文章于 2024-07-25 09:48:00 发布

zem421

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量1.9k

点赞数

文章标签： hadoop 大数据 eclipse

本文链接：https://blog.csdn.net/zem421/article/details/111463669

版权

统计单词个数

要求

1.将待分析的文件（不少于10000英文单词）上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。

过程

1.首先启动hadoop,用jps判断是否启动成功，如果成功，则如下图所示在这里插入图片描述
2.递归创建/user/hadoop/input目录，将不少于10000字单词的文件上传到/user/hadoop/input目录下

3.打开eclipse进行配置，填写工作空间
4.选择 Window 菜单下的 Preference

5.切换 Map/Reduce 开发视图，选择 Window 菜单下选择 Open Perspective -> Other（CentOS 是 Window -> Perspective -> Open Perspective -> Other），弹出一个窗体，从中选择 Map/Reduce 选项即可进行切换在这里插入图片描述
6.建立与 Hadoop 集群的连接，点击 Eclipse软件右下角的 Map/Reduce Locations 面板，在面板中单击右键，选择 New Hadoop Location
7.在弹出来的 General 选项面板中，进行配置
8.在eclipse中创建MapReduce项目，点击 File 菜单，选择 New -> Project…，选择 Map/Reduce Project，点击 Next 在这里插入图片描述
9.填写 Project name ，点击 Finish 就创建好了项目
10.接着右键点击刚创建的 WordCount 项目，选择 New -> Class，需要填写两个地方：在 Package 处填写 org.apache.hadoop.examples；在 Name 处要填写

11.创建 Class 完成后，在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中

package org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper

最低0.47元/天解锁文章

zem421

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Eclipse利用Hadoop平台实现统计单词个数

统计单词个数要求1.将待分析的文件（不少于10000英文单词）上传到HDFS2.调用MapReduce对文件中各个单词出现的次数进行统计3.将统计结果下载本地。过程1.首先启动hadoop,用jps判断是否启动成功，如果成功，则如下图所示2.递归创建/user/hadoop/input目录，将不少于10000字单词的文件上传到/user/hadoop/input目录下3.打开eclipse进行配置，填写工作空间4.选择 Window 菜单下的 Preference5.切换 Map/R
复制链接

扫一扫