调用MapReduce对文件中各个单词出现的次数进行统计

最新推荐文章于 2022-04-26 20:21:55 发布

ICVER

最新推荐文章于 2022-04-26 20:21:55 发布

阅读量1.3k

点赞数

文章标签： mapreduce ubuntu hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wssc13352756962/article/details/122247503

版权

本文介绍了如何在Ubuntu系统中利用Hadoop MapReduce统计HDFS中LanJingXu.txt文件的单词计数。首先安装Ubuntu、配置Java环境和Hadoop，接着将文件上传到HDFS，使用Eclipse创建并运行MapReduce项目，最后下载并查看处理结果。

摘要由CSDN通过智能技术生成

一、需求描述

Hadoop综合大作业要求：

1.将待分析的文件（不少于10000英文单词）上传到HDFS。

2.调用MapReduce对文件中各个单词出现的次数进行统计。

3.将统计结果下载本地。

4.写一篇博客描述你的分析过程和分析结果。

本次大作业，我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统，然后要配置Java环境，安装JDK。Ubuntu提供了一个健壮，功能丰富的计算环境。

5. 论文提交内容及提交文件的格式：

1）文件名格式：

学号+姓名+班级+大数据期末作业.doc

2）文件内容：

① 文件处理截图

② 文件MapReduce处理的代码

③ 博客完成的截图

④ 正文内容小四号字，宋体

二、环境介绍

在 VitrtualBox 上安装 Ubuntu。在 Ubuntu 中安装 Hadoop，Eclipse。安装 JAVA 环境，下载文件 jdk-8u162-linux-x64.tar.gz。配置 Hadoop 伪分布式。在 Ubuntu软件中心中下载并安装 Eclipse。安装好后，把待分析的文件上传到 HDFS，然后在 Eclipse 中创建MapReduce 项目，创建Java工程，为项目添加需要用到的 JAR包。

三、数据来源及数据上传

准备一个10000以上单词的txt文件，命名为LanJingXu.txt,并且将文件放入Hadoop文件中

数据来源：Free eBooks | Project Gutenberghttps://www.gutenberg.org

3.1 10000个单词的LanJingXu.txt文件

把LanJingXu.txt文件导入Hadoop中

四、数据上传结果查看

4.1 启动Hadoop,使用./bin/hdfs dfs -put LanJingXu.txt inpput命令将LanJingXu.txt文件上传到HDFS。

4.2 使用ls命令查看HDFS input文件时候存在刚刚上传的文件

五、数据处理过程的描述

5.1 安装Ecslipse

5.2 安装 Hadoop-Eclipse-Plugin

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。