为什么研究Dynamic Allocation的源码?
在线上任务执行的过程中,有些任务占用着Yarn资源却并行度极低,比如申请了100核cpu(现象持续时间超过了executor idle time),但那个stage只有9个running task。
最关键的是,在Spark-SQL中,Dynamic Allocation可以说是必用功能之一。因此知晓其原理才能更好的理解Spark动态资源调度。
什么是Dynamic Allocation,为什么要Dynamic Allocation?
无论用什么资源管理,集群的资源总是有限的并且竞争激烈的。因此,弹性的思想就很关键,用多少拿多少、用完还回去。
想到现在很多云服务器的思想都和这个极为相似,服务器按小时租,按量收费,一个用户就相当于一个任务,云服务就像Yarn管理资源分配,谁要资源就立即分配。
Dynamic Allocation早在Spark1.2就被开发出来使用了,到现在已经是非常的成熟和完善了。
相关参数可以参考我之前写的spark 参数调优10-Dynamic Allocation
源码解析
Dynamic Allocation核心代码实现就在ExecutorAllocationManager
中。
先保留两个问题:
- 如何衡量当前任务需要消耗多少资源?
- 什么时候该去向集群申请资源?
先计算出每个executor最大并行度:
因此我们可以建立task和executor之间的联系。
所以我们可以得出结论:如果有100个task,每个executor最大并行度为10,则我们最多需要10个executor。
代码实现如下:
这边要注意的是executorAllocationRatio
,这个比例范围在0~1.0之间,默认为1.0,控制了任务和资源的比例,在资源非常珍贵的场景下,可以适当调小这个参数,比如之前的100个task,我们本来打算给他10个executor,如果将此参数设为0.5,那么这100个task只能申请到5个executor了。该参数如下:
updateAndSyncNumExecutorsTarget:更新当前executor的数量,返回为需要增(正数)减(负数)的executor数量:
这我们不难发现,不管是需要增加(调用addExecutors)还是减少executor,都会使用到client.requestTotalExecutors,其调用了CoarseGrainedSchedulerBackend中的requestTotalExecutors:
在向cluster manager申请executor时,加了一把锁,防止重复申请executor。
Spark向YARN申请资源
YarnSchedulerBackend中doRequestTotalExecutors:
prepareRequestExecutors:
什么时候触发executor移除?
同样在ExecutorAllocationManager中我们可以看到:
默认100ms会执行一次schedule():
这边获取到了超时的executor,然后进行remove操作。
小结
Spark Dynamic Allocation的核心代码大致上就这些,主要用于申请和释放executor,在不同场景下,保证不会多申请,当然active的executor也不能低于设定的最低值。
至于CoarseGrainedSchedulerBackend是怎么维护executor的,会在后续的文章给出答案。