一、Yarn简介
1、Yarn是什么
- Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)
- 一种新的Hadoop资源管理器,一个通用资源管理系统
- 为上层提供统一的资源管理与任务调度及监控,提高了集群管理效率、资源使用率、数据共享效
2、Yarn特点
- 资源管理与计算框架解耦设计,一个集群资源共享给上层各个计算框架,按需分配,大幅度提高资源利用率
- 运维成本显著下降,只需运维一个集群,同时运行满足多种业务需求的计算框架
- 集群内数据共享一致,数据不再需要集群间拷贝转移,达到共享互用
- 避免单点故障、集群资源扩展得到合理解决
二、Yarn架构设计
1、架构设计图
Yarn设计的核心思想是将JobTracker的两个主要职责:资源管理和任务调度管理,分别交给两个角色负责。
一个是全局的ResourceManager,一个是每个应用中唯一的ApplicationMaster。
ResourceManager以及每个节点一个的NodeManager构成了新的通用系统,实现以分布式方式管理应用。
2、基本组成
YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成。
3、运行流程
三、Yarn调度策略
1、MRv1的调度方式
集中式调度器,资源调度和应用程序的管理功能集中到单一进程完成,扩展性差。
- 集群规模受限,集群达到一定规模(4000个节点)后,JobTracker压力过大容易发生单点故障
- 新的调度策略难以融入到现有代码中,之前仅支持MapReduce作业,现在要支持Spark等作业,而将新的作业的调度策略加入到集中式调度中是极难的工作
2、Yarn双层调度架构
为了克服集中式调度器的不足,双层调度器是一种很容易被想到的解决之道,它可看作是一种分而治之的机制或者是策略下放机制:双层调度器仍保留一个精简化的集中式资源调度器,但具体任务相关的调度策略则下放到各个应用程序调度器完成。
- 将传统的集中式调度器一分为二,即资源调度器(ResourceManager)和应用程序调度器(ApplicationMaster)
- ResourceManager即简化了的集中式资源调度器,具体作业的资源调度和管理由应用程序调度器ApplicationMaster负责
3、常用调度策略
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。
FIFO Scheduler | 默认的队列内部调度器,只有一个队列,所有用户共享 ,简单好理解,无法控制用户的资源使用,造成集群的可用性很差。一般不在生产环境使用。 |
Capacity Scheduler | 多用户、分队列、ACL控制、不支持抢占式,队列内部依然是FIFO,也可以采用Fair |
Fair Scheduler | 多用户、分队列、ACL控制、支持抢占式,队列内部不是FIFO,而是公平分配的方式 |
四、Yarn 命令
- 直接输入 yarn 回车即可查看 yarn 的一级命令:yarn,显示出可用的命令列表
- 查看版本信息:yarn version
- 使用 yarn 命令提交 jar 包:
- yarn jar jarName mainClassPath -Dk1=v1 -Dk2=v2 inputPath outputPath
- 获取 yarn 运行时的 classpath 值:yarn classpath
- 查看所有 application 列表信息:yarn application -list
- 杀掉指定的 application,使用命令:yarn application -kill app-id
- 查看 yarn 的当前资源使用情况:yarn top