1、Yarn是什么
- Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)
- 一种新的Hadoop资源管理器,一个通用资源管理系统
- 为上层提供统一的资源管理与任务调度及监控,提高了集群管理效率、资源使用率、数据共享效率
2、Yarn特点
- 资源管理与计算框架解耦设计,一个集群资源共享给上层各个计算框架,按需分配,大幅度提高资源利用率
- 运维成本显著下降,只需运维一个集群,同时运行满足多种业务需求的计算框架
- 集群内数据共享一致,数据不再需要集群间拷贝转移,达到共享互用
- 避免单点故障、集群资源扩展得到合理解决
3、Yarn架构设计
基本组成
YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成。
3.1概略介绍
- Master/Slave结构,1个ResourceManager和多个NodeManager
- Yarn由Client、ResourceManager、NodeManager、ApplicationMaster组成
- Client向ResourceManager提交启动任务、杀死任务等命令请求
- ApplicationMaster由对应的计算框架编写的应用程序完成。每个应用程序对应一个ApplicationMaster,ApplicationMaster向ResourceManager申请资源用于在NodeManager上启动相应的Task
- NodeManager向ResourceManager通过心跳信息汇报NodeManager监控状况、任务执行状况、领取任务等 3.1 运行流程图:
- Yarn调度策略
Yarn双层调度架构
为了克服集中式调度器的不足,双层调度器是一种很容易被想到的解决之道,它可看作是一种分而治之的机制或者是策略下放机制:双层调度器仍保留一个精简化的集中式资源调度器,但具体任务相关的调度策略则下放到各个应用程序调度器完成。
- 将传统的集中式调度器一分为二,即资源调度器(ResourceManager)和应用程序调度器(ApplicationMaster)
- ResourceManager即简化了的集中式资源调度器,具体作业的资源调度和管理由应用程序调度器ApplicationMaster负责
-
FIFO Scheduler(First In First Out,先进先出)
默认的调度策略,把用户提交的作业顺序排成一个队列,所有用户共享,是一个先进先出的队列。
无法控制用户的资源使用,大的应用可能会占用所有集群资源,导致其他应用被阻塞,造成集群的可用性差,所以不适用于共享集群。一般不在生产环境中使用。
-
Capacity Scheduler(容器调度器)
-
允许多用户共享整个集群,每个用户或组织分配专门的队列,不支持抢占式。队列内部默认使用FIFO,也支持Fair调度。
-
Fair Scheduler(公平调度器)
目标是为所有用户分配公平的资源。也支持多用户共享集群,也可划分多队列。队列内部不是FIFO,而是采用公平分配的方式。