yarn的三种调度器

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。
一、调度器的选择

在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。

FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。

FIFO Scheduler是最简单也是最容易理解的调度器,也不需要任何配置,但它并不适用于共享集群。大的应用可能会占用所有集群资源,这就导致其它应用被阻塞。在共享集群中,更适合采用Capacity Scheduler或Fair Scheduler,这两个调度器都允许大任务和小任务在提交的同时获得一定的系统资源。

下面“Yarn调度器对比图”展示了这几个调度器的区别,从图中可以看出,在FIFO 调度器中,小任务会被大任务阻塞。在这里插入图片描述
而对于Capacity调度器,有一个专门的队列用来运行小任务,但是为小任务专门设置一个队列会预先占用一定的集群资源,这就导致大任务的执行时间会落后于使用FIFO调度器时的时间。在这里插入图片描述
在Fair调度器中,我们不需要预先占用一定的系统资源,Fair调度器会为所有运行的job动态的调整系统资源。如图所示,当第一个大job提交时,只有这一个job在运行,此时它获得了所有集群资源;当第二个小任务提交后,Fair调度器会分配一半资源给这个小任务,让这两个任务公平的共享集群资源。
需要注意的是,在图Fair调度器中,从第二个任务提交到获得资源会有一定的延迟,因为它需要等待第一个任务释放占用的Container。小任务执行完成之后也会释放自己占用的资源,大任务又获得了全部的系统资源。最终的效果就是Fair调度器即得到了高的资源利用率又能保证小任务及时完成。

Capacity Scheduler(容器调度器)的配置
Capacity 调度器允许多个组织共享整个集群,每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外,队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。
在这里插入图片描述
通过上面那幅图,我们已经知道一个job可能使用不了整个队列的资源。然而如果这个队列中运行多个job,如果这个队列的资源够用,那么就分配给这些job,如果这个队列的资源不够用了呢?其实Capacity调度器仍可能分配额外的资源给这个队列,这就是“弹性队列”(queue elasticity)的概念。

在正常的操作中,Capacity调度器不会强制释放Container,当一个队列资源不够用时,这个队列只能获得其它队列释放后的Container资源。当然,我们可以为队列设置一个最大资源使用量,以免这个队列过多的占用空闲资源,导致其它队列无法使用这些空闲资源,这就是”弹性队列”需要权衡的地方。
容器调度的配置
假设我们有如下层次的队列:

root
├── prod
└── dev
├── eng
└── science
下面是一个简单的Capacity调度器的配置文件,文件名为capacity-scheduler.xml。在这个配置中,在root队列下面定义了两个子队列prod和dev,分别占40%和60%的容量。需要注意,一个队列的配置是通过属性yarn.sheduler.capacity..指定的,代表的是队列的继承树,如root.prod队列,一般指capacity和maximum-capacity。
在这里插入图片描述
我们可以看到,dev队列又被分成了eng和science两个相同容量的子队列。dev的maximum-capacity属性被设置成了75%,所以即使prod队列完全空闲dev也不会占用全部集群资源,也就是说,prod队列仍有25%的可用资源用来应急。我们注意到,eng和science两个队列没有设置maximum-capacity属性,也就是说eng或science队列中的job可能会用到整个dev队列的所有资源(最多为集群的75%)。而类似的,prod由于没有设置maximum-capacity属性,它有可能会占用集群全部资源。

Capacity容器除了可以配置队列及其容量外,我们还可以配置一个用户或应用可以分配的最大资源数量、可以同时运行多少应用、队列的ACL认证等。

队列的设置
关于队列的设置,这取决于我们具体的应用。比如,在MapReduce中,我们可以通过mapreduce.job.queuename属性指定要用的队列。如果队列不存在,我们在提交任务时就会收到错误。如果我们没有定义任何队列,所有的应用将会放在一个default队列中。

注意:对于Capacity调度器,我们的队列名必须是队列树中的最后一部分,如果我们使用队列树则不会被识别。比如,在上面配置中,我们使用prod和eng作为队列名是可以的,但是如果我们用root.dev.eng或者dev.eng是无效的。

总结:
Capacity
Scheduler容量调度器的特性:
1.可以控制每个队列的最高限制和最低保证,最高限制是防止某个队列占用资源过多导致其他队列资源紧张
2.可以针对用户限制最高使用资源,防止用户滥用或频繁使用使用资源
3.每一个队列也是按照先进先出的原则调度
4.如果A队列资源紧张,B队列资源剩余,那么可以暂时把B队列的资源共享给A队列使用,一旦B队列有任务提交,那么共享给A队列的资源会归还,这种特性叫弹性队列
容量调度器的配置:
在capacity-scheduler.xml配置yarn.scheduler.capacity..

FairScheduler公平调度器的特性:
即实现了队列间的公平调度,也实现了队列内作业间的公平调度
假设只有A队列的job1正在运行中,则job1占用的所有集群资源,如果同一队列A的job2启动了那么会将job1的一半资源分配给job2,如果另一个队列B的job3也要启动,则队列A会分出一半的资源给队列B的job3。

FIFOSchedule(默认):
FIFOSchedule 的局限性,多个用户需要共享集群资源,集群资源以队列为单位划分。
即以应用提交的顺序排成一个队列,这是以一个先进先出的队列,在进行资源分配的时候,先给队列最前面的应用进行分配资源,待最前面的应用满足需求后在分配给下一个,以此类推。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理,它负责在集群上有效分配和管理资源。YARN提供了三种不同的调度,它们是: 1. FIFO调度(First-In-First-Out Scheduler):FIFO调度YARN最简单的调度之一,它按照任务提交的先后顺序进行调度,没有优先级或资源约束的考虑。当有新的任务提交时,FIFO调度会将其分配给可用的资源,并等待前面的任务完成后再进行下一个任务的调度。这种调度适用于简单的场景,不涉及资源竞争或优先级需求。 2. 容量调度(Capacity Scheduler):容量调度是一种多队列调度,它将集群资源按比例划分给不同的队列,每个队列都有自己的资源配额。容量调度支持多个租户或应用程序共享集群资源,通过配置不同队列的资源配额和优先级,可以灵活地控制资源的分配。容量调度还支持预留资源和抢占机制,以保证重要任务的执行和高效利用集群资源。 3. 公平调度(Fair Scheduler):公平调度是一种公平共享资源的调度,它试图以公平的方式分配资源给不同的应用程序。公平调度将集群资源按照比例分配给不同的应用程序或作业,以避免某个应用程序垄断资源的情况。公平调度还支持资源抢占,可以根据应用程序的优先级和需求,动态地重新分配资源以满足不同应用程序的需求。 这三种调度各有特点,适用于不同的应用场景。FIFO调度简单易用,适合简单的任务调度需求;容量调度适用于多租户共享资源的场景,可以精细控制资源分配;公平调度适用于追求公平性的场景,以确保每个应用程序都能获得公平的资源分享。根据具体的需求和集群规模,可以选择合适的调度来管理和分配集群资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值