这是读书笔记。
最近准备把基础重新学一遍,再往大数据方向走。
正好有些书买了还没看,这本书讲的是
Hadoop的生态圈
是一本概要类的书籍,16年11月的,正好我也有个简单了解。
第一章 关键技术
这一章讲的是当时的Hadoop的关键性的技术,都是完全集成的,其中包括分布式文件系统HDFS、处理大数据的编程范式MapReduce、数据处理的YARN、数据处理/存储的Spark
我听得比较多的就是前面2个和最后一个,第三个不太熟,正好在这里大致说下每个部分作用和区别
1.1 HDFS
用途介绍的是:大容量、容错性、可存储非常大的数据集的廉价存储
我的理解:超大存储,数据是所有操作的基础,这个技术就是基础中的基础技术
我的感觉:一眼就看到了,廉价,那肯定是必须掌握了。
1.2 MapReduce
用途介绍的是:一种处理大数据的编程范式
我的理解:编程范式?那不就是标准规范吗。。。我看介绍还有很多,大致是告诉你一个数据的处理流程。MapReduce分为mapper和reduce两个java程序,mapper负责把数据放进map里面,然后reducer将map里的数据进行分类汇总。
我的感觉:很复杂,我查了下教程也有,应该是基础技能,毕竟是对数据进行操作的。
1.3 YARN
用途介绍的是:数据处理
我的理解:官方定义,YARN更像一个桥,让其他的模块或者技术可以在Hadoop上运行,更像是个屏蔽异构性的中间件?
我的感觉:这个应该挺重要的?
1.4 Spark
用途介绍的是:数据处理/存储
我的理解:这是弥补MapReduce在一些领域的空白,介绍说是MapReduce的完全替代品
我的感觉:这个应该也是分应用场景的,应该也挺重要的。
第一章就是这些内容,大致知道了Hadoop的几个关键技术。第二章是讲数据库及数据管理。