《Hadoop生态系统》（O'REILLY ）（一）

最新推荐文章于 2018-11-06 16:07:19 发布

wzlhlhhh

最新推荐文章于 2018-11-06 16:07:19 发布

阅读量338

点赞数

文章标签： Hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzlhlhhh/article/details/83787234

版权

读书笔记同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

这是读书笔记。
最近准备把基础重新学一遍，再往大数据方向走。
正好有些书买了还没看，这本书讲的是
Hadoop的生态圈
是一本概要类的书籍，16年11月的，正好我也有个简单了解。

第一章关键技术

这一章讲的是当时的Hadoop的关键性的技术，都是完全集成的，其中包括分布式文件系统HDFS、处理大数据的编程范式MapReduce、数据处理的YARN、数据处理/存储的Spark
我听得比较多的就是前面2个和最后一个，第三个不太熟，正好在这里大致说下每个部分作用和区别

1.1 HDFS

用途介绍的是：大容量、容错性、可存储非常大的数据集的廉价存储
我的理解：超大存储，数据是所有操作的基础，这个技术就是基础中的基础技术
我的感觉：一眼就看到了，廉价，那肯定是必须掌握了。

1.2 MapReduce

用途介绍的是：一种处理大数据的编程范式
我的理解：编程范式？那不就是标准规范吗。。。我看介绍还有很多，大致是告诉你一个数据的处理流程。MapReduce分为mapper和reduce两个java程序，mapper负责把数据放进map里面，然后reducer将map里的数据进行分类汇总。
我的感觉：很复杂，我查了下教程也有，应该是基础技能，毕竟是对数据进行操作的。

1.3 YARN

用途介绍的是：数据处理
我的理解：官方定义，YARN更像一个桥，让其他的模块或者技术可以在Hadoop上运行，更像是个屏蔽异构性的中间件？
我的感觉：这个应该挺重要的？

1.4 Spark

用途介绍的是：数据处理/存储
我的理解：这是弥补MapReduce在一些领域的空白，介绍说是MapReduce的完全替代品
我的感觉：这个应该也是分应用场景的，应该也挺重要的。

第一章就是这些内容，大致知道了Hadoop的几个关键技术。第二章是讲数据库及数据管理。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。