YARN:Hadoop资源管理
1. 介绍
早期1.0的hadoop没有资源管理,导致各种工具使用不方便,没有集合
在HDFS和应用层之间加入YARN层, 可以构建新的系统,集中不同类型的大数据应用程序,如用于图形数据分析的Giraph、用于流式数据分析的Storm和用于内存分析的Spark。 YARN提供了一个标准的框架 ,支持定制化的应用建立在HADOOP生态之下。
2. 结构
-
Node Manager:每一个机器都有一个Node Manager,它在单个机器层面上工作,控制着独立的机器
-
Application Master:谈判者(personal negotiator),与Resource Manager ”谈判“获得资源,并在任务结束之后通知Node Manager
-
Container:是一个抽象概念,代表的是CPU,内存硬盘网络(memory disk network)等等其他资源的集合,简单一点可以把它理解成为机器(电脑)
-
Resource Manager:中间的Resource Manager是终极决策者,它控制着所有的资源,决定了谁分配到啥
-
Data Computation Framework =Node Manager+ Resource Manager
3. 总结
- YARN为应用程序提供了许多从数据中提取价值的方法
- 允许在相同的hadoop集群上运行多种分布式应用程序
- 减少了数据的移动需求,并支持更高的资源利用率,降低了成本
- 是一个可扩展的平台,使得在HDFS上的应用蓬勃发展,大大的丰富了Hadoop的生态系统