Eclipse利用Hadoop平台实现统计单词个数

统计单词个数

要求

1.将待分析的文件(不少于10000英文单词)上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。

过程

1.首先启动hadoop,用jps判断是否启动成功,如果成功,则如下图所示在这里插入图片描述
2.递归创建/user/hadoop/input目录,将不少于10000字单词的文件上传到/user/hadoop/input目录下
在这里插入图片描述
3.打开eclipse进行配置,填写工作空间在这里插入图片描述
4.选择 Window 菜单下的 Preference
在这里插入图片描述
5.切换 Map/Reduce 开发视图,选择 Window 菜单下选择 Open Perspective -> Other(CentOS 是 Window -> Perspective -> Open Perspective -> Other),弹出一个窗体,从中选择 Map/Reduce 选项即可进行切换在这里插入图片描述
6.建立与 Hadoop 集群的连接,点击 Eclipse软件右下角的 Map/Reduce Locations 面板,在面板中单击右键,选择 New Hadoop Location在这里插入图片描述
7.在弹出来的 General 选项面板中,进行配置在这里插入图片描述
8.在eclipse中创建MapReduce项目,点击 File 菜单,选择 New -> Project…,选择 Map/Reduce Project,点击 Next在这里插入图片描述
9.填写 Project name ,点击 Finish 就创建好了项目在这里插入图片描述
10.接着右键点击刚创建的 WordCount 项目,选择 New -> Class,需要填写两个地方:在 Package 处填写 org.apache.hadoop.examples;在 Name 处要填写
在这里插入图片描述
11.创建 Class 完成后,在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中

package org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值