调用MapReduce对文件中各个单词出现次数进行统计

最新推荐文章于 2023-06-20 00:02:23 发布

我门

最新推荐文章于 2023-06-20 00:02:23 发布

阅读量297

点赞数

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/weixin_52443684/article/details/111460364

版权

本博客详细介绍了如何在Ubuntu Kylin环境下，利用Hadoop MapReduce统计文件中的单词出现次数。首先启动Eclipse，创建Java工程并导入所需Hadoop相关JAR包。接着编写MapReduce程序，包括Mapper和Reducer类，最后打包程序并运行，将结果存入HDFS。通过一系列步骤，实现了词频统计功能。

摘要由CSDN通过智能技术生成

调用MapReduce对文件中各个单词出现次数进行统计

实验配置：系统:Ubuntu Kylin | 环境：Hadoop | 软件：Eclipse
在这里插入图片描述

首先，启动Eclipse，需要填写workspace(工作空间)，用来保存程序所在的位置，这里按照默认，不需要改动，如下图，点击“OK”按钮，进入Eclipse软件。

直接采用默认的设置“/home/hadoop/workspace”，工作空间目录位于hadoop用户目录“/home/hadoop”下。
Eclipse启动以后，呈现的界面如下图所示。
在这里插入图片描述

创建一个Java工程。
在这里插入图片描述

在“Project name”后面输入工程名称“WordCount”，选中“Use default location”，让这个Java工程的所有文件都保存在“/home/hadoop/workspace/WordCount”目录下。
进入下一步
在这里插入图片描述

需要在这个界面中加载该Java工程所需要用到的JAR包，这些JAR包中包含了与Hadoop相关的Java API。这些JAR包都位于Linux系统的Hadoop安装目录下，就是在“/usr/local/hadoop/share/hadoop”目录下。点击界面中的“Libraries”选项卡，然后，点击界面右侧的“Add External JARs…”按钮，弹出如下图所示界面。在这里插入图片描述

为了编写一个MapReduce程序，一般需要向Java工程中添加以下JAR包：
（1）“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-2.7.1.jar和haoop-nfs-2.7.1.jar；
（2）“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包；
（3）“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包，但是，不包括lib、lib-examples和sources目录，具体如下图所示。
在这里插入图片描述