调用MapReduce对文件中各个单词出现的次数进行统计

本文介绍了如何在Ubuntu系统中利用Hadoop MapReduce统计HDFS中LanJingXu.txt文件的单词计数。首先安装Ubuntu、配置Java环境和Hadoop,接着将文件上传到HDFS,使用Eclipse创建并运行MapReduce项目,最后下载并查看处理结果。
摘要由CSDN通过智能技术生成

一、需求描述

Hadoop综合大作业 要求:

1.将待分析的文件(不少于10000英文单词)上传到HDFS。

2.调用MapReduce对文件中各个单词出现的次数进行统计。

3.将统计结果下载本地。

4.写一篇博客描述你的分析过程和分析结果。

本次大作业,我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统,然后要配置Java环境,安装JDK。Ubuntu提供了一个健壮,功能丰富的计算环境。

5. 论文提交内容及提交文件的格式:

1)文件名格式:

学号+姓名+班级+大数据期末作业.doc

2)文件内容:

          ① 文件处理截图

          ② 文件MapReduce处理的代码

          ③ 博客完成的截图

          ④ 正文内容小四号字,宋体

二、环境介绍

         在 VitrtualBox 上安装 Ubuntu。在 Ubuntu 中安装 Hadoop,Eclipse。安装 JAVA 环境,下载文件 jdk-8u162-linux-x64.tar.gz。配置 Hadoop 伪分布式。在 Ubuntu软件中心中下载并安装 Eclipse。安装好后,把待分析的文件上传到 HDFS,然后在 Eclipse 中创建MapReduce 项目,创建Java工程,为项目添加需要用到的 JAR包。

三、数据来源及数据上传

      准备一个10000以上单词的txt文件,命名为LanJingXu.txt,并且将文件放入Hadoop文件中

       数据来源:Free eBooks | Project Gutenbergicon-default.png?t=LBL2https://www.gutenberg.org

3.1 10000个单词的LanJingXu.txt文件

 LanJingXu.txt文件导入Hadoop

 

四、数据上传结果查看

      4.1 启动Hadoop,使用./bin/hdfs dfs -put LanJingXu.txt inpput命令将LanJingXu.txt文件上传到HDFS

 4.2 使用ls命令查看HDFS input文件时候存在刚刚上传的文件

 

五、数据处理过程的描述

      5.1 安装Ecslipse

 

5.2 安装 Hadoop-Eclipse-Plugin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值