Hadoop学习总结

 对Hadoop的基本认识

Hadoop是一个分布式系统基础技术框架,由Apache基金会所开发。利用hadoop,软件开发用户可以在不了解分布式底层细节的情况下,开发分布式程序,从而达到充分利用集群的威力高速运算和存储的目的。
Hadoop是根据google的三大论文作为基础而研发的,google 的三大论文分别是: MapReduce、 GFS和BigTable。因此,hadoop 也因此被称为是:
google技术的山寨版。不过这种“山寨版”却成了当下大数据处理技术的国际标准(因为它是世界上唯一个做得相对完善而又开源的框架)。
Hadoop框架中最核心的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释
MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System) 的缩写,为分布式计算存储提供了底层支持。
MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map (展开)”就是将一个任务 分解成为多个任务,“Reduce” 就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想,其实它的本质就是一种“分治法”的思想,把一个巨大的任务分割成许许多多的小任务单元,最后再将每个小任务单元的结果汇总,并求得最终结果。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。
总之,用户利用Hadoop可以轻松的组织计算机资源,搭建自己的分布式计算平台,充分利用集群的计算和存储能力,完成海量数据的处理。

我们这学期学习了五个项目:

项目一、Linux基础

主要任务:安装配置CentOS、Linux用户操作、Linux目录操作进程管理、使用Vim编辑器压缩与打包、软件包管理器RPM与yum、打好shell基础

 

 

 项目二、初识Hadoop

主要任务:初探大数据、大数据应用场景、初探Hadoop世界

项目三、Hadoop集群构建

主要任务:Hadoop安装准备、Hadoop部署模式、Hadoop集群配置、Hadoop集群测试

 

 

 

 

项目四、HDFS分布式文件系统

主要任务:HDFS基本概念、HDFS架构和原理、HDFS的Shell操作、使用Java API操作HDFS

三种Shell命令方式;

 常用HDFS的shell命令:

 

项目五、MapReduce分布式计算框架

主要任务:

(—)MapReduce核心思想、(二)MapReduce编程模型、(三)MapReduce编程实例——词频统计思路、(四)MapReduce编程实例——词频统计实现
1、准备数据文件

(1)在虚拟机上创建文本文件、(2)上传文件到HDFS指定目录2、创建Maven项目 3、添加相关依赖 4、创建日志属性文件 5、创建词频统计映射器类 6、创建词频统计驱动器类 7、运行词频统计驱动器类,查看结果 8、修改词频统计映射器类 9、修改词频统计驱动器类 10、启动词频统计驱动器类,查看结果 11、创建词频统计归并器类 12、修改词频统计驱动器类 13、运行词频统计驱动器类,查看结果 14、修改词频统计归并器类 15、修改词频统计驱动器类 16、启动词频统计驱动器类,查看结果 17、采用多个Reduce做合并

(1)MR默认采用哈希分区HashPartitioner(2)修改词频统计驱动器类,设置分区数量18、打包上传到虚拟机上运行(1)利用Maven打包(2)将jar包上传到虚拟机(3)运行jar包,查看结果(4)降低项目JDK版本,重新打包(5)重新上传jar包到虚拟机(6)运行jar包,查看结果19、创建新词频统计驱动器类20、重新打包上传虚拟机并执行21、将三个类合并成一个类完成词频统计22、合并分区导致的多个结果文件23、统计不同单词数
 


 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值