调用MapReduce对文件中各个单词出现的次数进行统计

最新推荐文章于 2023-12-29 10:05:28 发布

Dephery

最新推荐文章于 2023-12-29 10:05:28 发布

阅读量471

点赞数 2

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_44198229/article/details/111431216

版权

本文介绍了如何通过MapReduce在Java环境中编写并运行词频统计程序。详细步骤包括添加必要的Hadoop JAR包、创建并编辑WordCount类、运行Java应用以及打包和部署到Hadoop平台。程序最后将结果输出到HDFS的指定目录。

摘要由CSDN通过智能技术生成

把本地文件系统的“/home/hadoop/word.txt”上传到HDFS中的当前用户目录的input目录下。
可以使用ls命令查看一下文件是否成功上传到HDFS中，具体命令如下：./bin/hdfs dfs –ls input
首先，启动Eclipse直接采用默认的设置“/home/hadoop/workspace”，工作空间目录位于hadoop用户目录“/home/hadoop”下。
Eclipse启动以后，创建一个Java工程。在“Project name”后面输入工程名称“WordCount”，选中“Use default location”，让这个Java工程的所有文件都保存在“/home/hadoop/workspace/WordCount”目录下。
进入下一步，需要在这个界面中加载该Java工程所需要用到的JAR包，这些JAR包中包含了与Hadoop相关的Java API。这些JAR包都位于Linux系统的Hadoop安装目录下，就是在“/usr/local/hadoop/share/hadoop”目录下。点击界面中的“Libraries”选项卡，然后，点击界面右侧的“Add External JARs…”按钮。

为了编写一个MapReduce程序，一般需要向Java工程中添加以下JAR包：（1）“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-2.7.1.jar和haoop-nfs-2.7.1.jar；（2）“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包；（3）“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包，但是，不包括lib、lib-examples和sources目录。ÿ