一.简介
1.是什么
Yarn(Yet Another Resource Negotiator,另一种资源协调者)
一种新的hadoop资源管理器,一个通用的资源管理系统
2.产生背景
hadoop1.x版本中JobTracker,TaskTracker的MRv1模型有很多局限性,如下:
- JobTracker出现单点故障,整个集群瘫痪
- JobTracker负载过重
- 仅支持MR计算框架
- 资源管理和任务调度没有解耦
3.Yarn的特点
- 资源管理与任务调度解耦,一个集群的资源共享上层各个计算框架,按需分配,提高了资源利用率
- 运维成本下降
- 避免了单点故障
- 支持多种计算框架
二.架构设计
1.架构设计图
Yarn分别将两大任务资源管理和任务调度分别交给两个角色ResourcesManager和ApplicationManager
RM管理全局,AM负责每个应用,大大降低了RM核心的负载压力
并且RM有着多重备份,当出现故障时,备份启动,平时只开启一个
2.基本组成
- Master/Slave结构,一个RM,多个NM
- Yarn由Client,RM,NM,AM组成
- Client向RM提交请求
- 每个应用程序对应一个AM,AM向RM申请用于NM上启动响应的Task
- NM通过心跳机制向RM报告任务执行的状况等信息
- MRv1的调度方式
- 集群规模受限,集群达到一定规模(4000个节点)后,JobTracker压力过大容易发生单点故障
- 新的调度策略难以融入到现有代码中,之前仅支持MapReduce作业,现在要支持Spark等作业,而将新的作业的调度策略加入到集中式调度中是极难的工作
- Yarn双层调度架构
- 将传统的集中式调度器一分为二,即资源调度器(ResourceManager)和应用程序调度器
- ResourceManager即简化了的集中式资源调度器,具体作业的资源调度和管理由应用程序调度器ApplicationMaster负责
三.运行流程
- 用户向YARN中提交应用程序/作业,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
- ResourceManager为作业分配第一个Container,并与对应的NodeManager通信,要求它在这个Container中启动该作业的ApplicationMaster。
- NodeManager启动一个Container运行ApplicationMaster。
- ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查询该作业的运行状态;然后它将为各个任务申请资源并监控任务的运行状态。
如果Container没有完全申请到位,则会先使用已经分配到位的部分Container资源进行后续的第5、6、7步骤,其余Container部分由ApplicationMaster采用轮询的方式通过RPC请求向ResourceManager申请和领取资源,直到全部资源分配到位。 - 一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
- NodeManager执行ApplicationMaster发送的命令,启动Container任务。
7)各个Container通过RPC向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。
在作业运行过程中,用户可以随时通过RPC向ApplicationMaster查询作业当前运行状态。
业当前运行状态。 - 作业完成后,ApplicationMaster向ResourceManager申请注销并关闭自己。
四.调度策略
-
FIFO Scheduler(First In First Out,先进先出)
- 默认的队列内部调度器,只有一个队列,所有用户共享
- 简单好理解,无法控制用户的资源使用,造成集群的可用性很差。一般不在生产环境使用。
-
Capacity Scheduler(容器调度器)
- 多用户、分队列、ACL控制、不支持抢占式,队列内部依然是FIFO,也可以采用Fair
-
Fair Scheduler(公平调度器)
- 多用户、分队列、ACL控制、支持抢占式,队列内部不是FIFO,而是公平分配的方式
五.常用命令
- 查看正在运行的应用: yarn application -list
- 结束应用: yarn application -kill app-id