调用MapReduce对文件中各个单词出现次数进行统计

本博客详细介绍了如何在Ubuntu Kylin环境下,利用Hadoop MapReduce统计文件中的单词出现次数。首先启动Eclipse,创建Java工程并导入所需Hadoop相关JAR包。接着编写MapReduce程序,包括Mapper和Reducer类,最后打包程序并运行,将结果存入HDFS。通过一系列步骤,实现了词频统计功能。
摘要由CSDN通过智能技术生成

调用MapReduce对文件中各个单词出现次数进行统计

实验配置:系统:Ubuntu Kylin | 环境:Hadoop | 软件:Eclipse
在这里插入图片描述

首先,启动Eclipse,需要填写workspace(工作空间),用来保存程序所在的位置,这里按照默认,不需要改动,如下图,点击“OK”按钮,进入Eclipse软件。

直接采用默认的设置“/home/hadoop/workspace”,工作空间目录位于hadoop用户目录“/home/hadoop”下。
Eclipse启动以后,呈现的界面如下图所示。
在这里插入图片描述

创建一个Java工程。
在这里插入图片描述

在“Project name”后面输入工程名称“WordCount”,选中“Use default location”,让这个Java工程的所有文件都保存在“/home/hadoop/workspace/WordCount”目录下。
进入下一步
在这里插入图片描述

需要在这个界面中加载该Java工程所需要用到的JAR包,这些JAR包中包含了与Hadoop相关的Java API。这些JAR包都位于Linux系统的Hadoop安装目录下,就是在“/usr/local/hadoop/share/hadoop”目录下。点击界面中的“Libraries”选项卡,然后,点击界面右侧的“Add External JARs…”按钮,弹出如下图所示界面。在这里插入图片描述

为了编写一个MapReduce程序,一般需要向Java工程中添加以下JAR包:
(1)“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-2.7.1.jar和haoop-nfs-2.7.1.jar;
(2)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包;
(3)“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包,但是,不包括lib、lib-examples和sources目录,具体如下图所示。
在这里插入图片描述

(4)“/usr/local/hadoop/share/hadoop/mapreduce/lib”目录下的所有JAR包。
比如,如果要把“/usr/local/hadoop/share/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值