Spark Dynamic Allocation 源码解析

为什么研究Dynamic Allocation的源码?

在线上任务执行的过程中,有些任务占用着Yarn资源却并行度极低,比如申请了100核cpu(现象持续时间超过了executor idle time),但那个stage只有9个running task。
最关键的是,在Spark-SQL中,Dynamic Allocation可以说是必用功能之一。因此知晓其原理才能更好的理解Spark动态资源调度。

什么是Dynamic Allocation,为什么要Dynamic Allocation?

无论用什么资源管理,集群的资源总是有限的并且竞争激烈的。因此,弹性的思想就很关键,用多少拿多少、用完还回去。
想到现在很多云服务器的思想都和这个极为相似,服务器按小时租,按量收费,一个用户就相当于一个任务,云服务就像Yarn管理资源分配,谁要资源就立即分配。

Dynamic Allocation早在Spark1.2就被开发出来使用了,到现在已经是非常的成熟和完善了。
相关参数可以参考我之前写的spark 参数调优10-Dynamic Allocation

源码解析

Dynamic Allocation核心代码实现就在ExecutorAllocationManager中。
先保留两个问题:

  1. 如何衡量当前任务需要消耗多少资源?
  2. 什么时候该去向集群申请资源?

先计算出每个executor最大并行度:
在这里插入图片描述
因此我们可以建立task和executor之间的联系。
所以我们可以得出结论:如果有100个task,每个executor最大并行度为10,则我们最多需要10个executor。
代码实现如下:
在这里插入图片描述
这边要注意的是executorAllocationRatio,这个比例范围在0~1.0之间,默认为1.0,控制了任务和资源的比例,在资源非常珍贵的场景下,可以适当调小这个参数,比如之前的100个task,我们本来打算给他10个executor,如果将此参数设为0.5,那么这100个task只能申请到5个executor了。该参数如下:
在这里插入图片描述
updateAndSyncNumExecutorsTarget:更新当前executor的数量,返回为需要增(正数)减(负数)的executor数量:
在这里插入图片描述
这我们不难发现,不管是需要增加(调用addExecutors)还是减少executor,都会使用到client.requestTotalExecutors,其调用了CoarseGrainedSchedulerBackend中的requestTotalExecutors:
在这里插入图片描述
在向cluster manager申请executor时,加了一把锁,防止重复申请executor。

Spark向YARN申请资源

YarnSchedulerBackend中doRequestTotalExecutors:
在这里插入图片描述
prepareRequestExecutors:
在这里插入图片描述

什么时候触发executor移除?

同样在ExecutorAllocationManager中我们可以看到:
在这里插入图片描述
默认100ms会执行一次schedule():
在这里插入图片描述
这边获取到了超时的executor,然后进行remove操作。

小结

Spark Dynamic Allocation的核心代码大致上就这些,主要用于申请和释放executor,在不同场景下,保证不会多申请,当然active的executor也不能低于设定的最低值。
至于CoarseGrainedSchedulerBackend是怎么维护executor的,会在后续的文章给出答案。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值