一、Hadoop基本架构
Hadoop有许多发行版本,基本可以分为1.x版本和2.x版本。两者基本组成如下:
1、HDFS(Hadoop Distributed File System)
其基本思想源自于Google的GFS论文,HDFS是GFS克隆版。
- HDFS特点
1、良好的扩展性
2、高容错性
3、适合PB级以上海量数据的存储 - 基本原理
1、将文件切分成等大的数据块,存储到多台机器上
2、将数据切分、容错、负载均衡等功能透明化,对用户开发API
3、可将HDFS看成一个容量巨大、具有高容错性的磁盘 - 应用场景
1、海量数据的可靠性存储
2、数据归档
2、YARN(Yet Another Resource Negotiator)
- YARN是什么
1、Hadoop 2.0新增系统
2、负责集群的资源管理和调度
3、使得多种计算框架可以运行在一个集群中 - YARN的特点
1、良好的扩展性、高可用性
2、对多种类型的应用程序进行统一管理和调度
3、自带了多种多用户调度器,适合共享集群环境,如下图所示: