《Hadoop生态系统》(O'REILLY )(一)

这是读书笔记。
最近准备把基础重新学一遍,再往大数据方向走。
正好有些书买了还没看,这本书讲的是
Hadoop的生态圈
是一本概要类的书籍,16年11月的,正好我也有个简单了解。

第一章 关键技术

这一章讲的是当时的Hadoop的关键性的技术,都是完全集成的,其中包括分布式文件系统HDFS、处理大数据的编程范式MapReduce、数据处理的YARN、数据处理/存储的Spark
我听得比较多的就是前面2个和最后一个,第三个不太熟,正好在这里大致说下每个部分作用和区别

1.1 HDFS

用途介绍的是:大容量、容错性、可存储非常大的数据集的廉价存储
我的理解:超大存储,数据是所有操作的基础,这个技术就是基础中的基础技术
我的感觉:一眼就看到了,廉价,那肯定是必须掌握了。

1.2 MapReduce

用途介绍的是:一种处理大数据的编程范式
我的理解:编程范式?那不就是标准规范吗。。。我看介绍还有很多,大致是告诉你一个数据的处理流程。MapReduce分为mapper和reduce两个java程序,mapper负责把数据放进map里面,然后reducer将map里的数据进行分类汇总。
我的感觉:很复杂,我查了下教程也有,应该是基础技能,毕竟是对数据进行操作的。

1.3 YARN

用途介绍的是:数据处理
我的理解:官方定义,YARN更像一个桥,让其他的模块或者技术可以在Hadoop上运行,更像是个屏蔽异构性的中间件?
我的感觉:这个应该挺重要的?

1.4 Spark

用途介绍的是:数据处理/存储
我的理解:这是弥补MapReduce在一些领域的空白,介绍说是MapReduce的完全替代品
我的感觉:这个应该也是分应用场景的,应该也挺重要的。

第一章就是这些内容,大致知道了Hadoop的几个关键技术。第二章是讲数据库及数据管理。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值