hadoop架构总结(一)
文章基于工业出版社出版《hadoop大数据技术基础及应用》个人学习总结。
1 hadoop概述
hadoop是一个开源的分布式文件存储处理架构。发展过程大致分为1.0版本和2.0版本。
hadoop1.0由分布式存储系统hdfs以及分布式计算框架mapreduce组成。2.0的变化在于引进了资源调度框架YARN,使得mapreduce更加专注于处理计算。在2.0中还解决了1.0版本存在的单点故障。
1.1 hadoop2.0生态系统
1、HDFS
HDFS可以说是hadoop生态的基石,具备高容错优点的分布式文件存储系统,分布在多台廉价机器上构成集群文件系统,能够提供高吞吐的数据访问。
2、mapreduce
分布式计算模型,将计算任务处理分为map和reduce两个阶段,分发到多台机器进行并行计算。
3、YARN
yarn出现在hadoop2.0版本后,是一个集群资源管理系统,对外提供服务。基本设计思想是将1.0中的JobTracher拆分成两个独立服务:一个全局资源管理器ResourceManager和各个应用程序特有的ApplicatonMaster。ResourceManager负责整个系统资