一、需求描述
Hadoop综合大作业 要求:
1.将待分析的文件(不少于10000英文单词)上传到HDFS。
2.调用MapReduce对文件中各个单词出现的次数进行统计。
3.将统计结果下载本地。
4.写一篇博客描述你的分析过程和分析结果。
本次大作业,我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统,然后要配置Java环境,安装JDK。Ubuntu提供了一个健壮,功能丰富的计算环境。
5. 论文提交内容及提交文件的格式:
1)文件名格式:
学号+姓名+班级+大数据期末作业.doc
2)文件内容:
① 文件处理截图
② 文件MapReduce处理的代码
③ 博客完成的截图
④ 正文内容小四号字,宋体
二、环境介绍
在 VitrtualBox 上安装 Ubuntu。在 Ubuntu 中安装 Hadoop,Eclipse。安装 JAVA 环境,下载文件 jdk-8u162-linux-x64.tar.gz。配置 Hadoop 伪分布式。在 Ubuntu软件中心中下载并安装 Eclipse。安装好后,把待分析的文件上传到 HDFS,然后在 Eclipse 中创建MapReduce 项目,创建Java工程,为项目添加需要用到的 JAR包。
三、数据来源及数据上传
准备一个10000以上单词的txt文件,命名为LanJingXu.txt,并且将文件放入Hadoop文件中
数据来源:Free eBooks | Project Gutenberghttps://www.gutenberg.org
3.1 10000个单词的LanJingXu.txt文件
把LanJingXu.txt文件导入Hadoop中
四、数据上传结果查看
4.1 启动Hadoop,使用./bin/hdfs dfs -put LanJingXu.txt inpput命令将LanJingXu.txt文件上传到HDFS。
4.2 使用ls命令查看HDFS input文件时候存在刚刚上传的文件
五、数据处理过程的描述
5.1 安装Ecslipse
5.2 安装 Hadoop-Eclipse-Plugin