Hadoop综合大作业

一、 需求描述
Hadoop综合大作业 要求:
1.将待分析的文件(不少于10000英文单词)上传到HDFS。
2.调用MapReduce对文件中各个单词出现的次数进行统计。
3.将统计结果下载本地。
4.写一篇博客描述你的分析过程和分析结果。
本次大作业,我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统,然后要配置Java环境,安装JDK。Ubuntu提供了一个健壮,功能丰富的计算环境。

二、环境介绍
在VMware上通过Ubuntu镜像安装Ubuntu操作系统,Ubuntu里安装好VMware tool,这个工具方便我们从本地上传文件虚拟机。在Ubuntu操作系统里面安装Hadoop,通过Ubuntu软件中心安装Eclipse。安装JAVA环境,下载文件 jdk-8u162-linux-x64.tar.gz后配置Hadoop伪分布式。将数据上传HDFS,在Eclipse创建MapReduce项目,创建Java工程,添加项目所需要的jar包
三、数据来源及数据上传
从百度下载了个157351字的圣诞颂歌的英文版,将其重命名为1.text。通过拖拽的方式上传至虚拟机。
在这里插入图片描述

文件已经/home/hadoop目录下:
在这里插入图片描述

四、数据上传结果查看
启动hadoop,将1.txt上传至HDFS并查看是否存在此文件:
在这里插入图片描述

五、数据处理过程的描述
1、 创建项目并添加相应jar包
在这里插入图片描述

2、创建wordcount类
在这里插入图片描述

3、编写代码并运行
在这里插入图片描述

4、将其打成jar包
在这里插入图片描述

5、查看已经生成的jar包
在这里插入图片描述

六、处理结果的下载及命令行展示
使用hadoop jar 运行jar包
在这里插入图片描述
在这里插入图片描述

查看结果

在这里插入图片描述
在这里插入图片描述

七、经验总结
之前虽然做过大数据环境的搭建和词频统计,但配置大数据环境并不容易,只做过一遍然后现在让我们自己不看书也是做不了的,在熟记Linux各种常用命令的前提下,还需要细心,专心以及知道环境搭建的细节,环境搭建姑且不讲,环境搭建在网友帮助下还是可以搭建起来的,但词频统计就是需要有自己的理解才能做出来,独自做词频统计就是在考验我们的大数据的基本开发,如果词频统计都过不了关的话是做不了大数据开发的,因为大数据开发最基本的MapReduce都弄不好,其他的组件就更难理解了,因为有些组件是在MapReduce的基础上实现数据批处理的,比如Hive,所以理解并且熟练使用MapReduce编程是必须的。不会就只能多做几遍,多理解几遍代码,也需要去了解JavaAPI的使用,只有了解JavaAPI的使用,才能更好的编写MapReduce代码,严格意义上多做几遍可以复习了前面学习过的hadoop命令以及linux命令, 使用代码进行了一次在hadoop环境中运行,对数据进行处理的过程,我觉得是学习大数据真正意义上的开始。我们会觉得大数据越来越有趣,这学期学习了其他组件的使用,觉得大数据开发的生态是连接起来的,但这个生态是围绕着hadoop的,hadoop理解透彻了,其他组件学起来也会慢慢理解,然后积累起来,等生态圈学习完了,应该才能成为真正的大数据开发工程师,期望学习到越来越多的大数据的知识,提高编写代码的能力。

参考文献
[1] 蔡斌, 陈湘萍. Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理[M]. 机械工业出版社, 2013.
[2] 董西成. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理[M].
[3]刘鹏,黄宜华,陈卫卫.实战 Hadoop.北京:电子工业版社.2011.
[4]项亮.推荐系统实践.北京:人民邮电出版社,2012.
[5]林子雨.大数据技术原理与应用.北京:人民邮电出版社,2021

  • 1
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
【资源说明】 毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip 毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值