图解Spark的任务调度机制

最新推荐文章于 2023-04-08 19:59:03 发布

满岛菜鸟

最新推荐文章于 2023-04-08 19:59:03 发布

阅读量485

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_43616627/article/details/104236764

版权

本文详细解析了Spark的任务调度机制，包括Stage级别的调度，Task级别的调度策略如FIFO和Fair，本地化调度策略以及失败重试和黑名单机制。在Stage调度中，DAGScheduler将Job划分为ResultStage和ShuffleMapStage；Task调度则由TaskScheduler负责，它依据Executor资源分配Task。Fair调度策略考虑了minShare和weight，确保公平的资源分配。

摘要由CSDN通过智能技术生成

由于在实际开发中都是使用yarn-cluster模式，所以本文也以该模式为分析的前提。

1. 相关概念

首先明确几个在任务调度方面的常用概念：
（1）Job 是以 Action 算子为界，遇到一个Action算子则触发一个Job；
（2）Stage 是 Job 的子集，以 RDD 宽依赖(即 Shuffle )为界，遇到 Shuffle 做一次划分；
（3）Task 是 Stage 的子集，以并行度(分区数)来衡量，这个 Stage 分区数是多少，则这个Stage 就有多少个 Task。
另外在任务调度过程中，有两个非常重要的调度器：DAGScheduler和TaskScheduler。
（1）DAGScheduler负责Stage级的调度，主要是将job切分成若干Stages，并将每个Stage打包成TaskSet交给TaskScheduler调度。
（2）TaskScheduler负责Task级的调度，将DAGScheduler传过来的TaskSet按照指定的调度策略分发到Executor上执行，调度过程中SchedulerBackend负责提供可用资源，其中SchedulerBackend有多种实现，分别对接不同的资源管理系统。

2. 任务调度

接下来我们来具体分析一下Spark的任务调度流程：

2.1 Stage级别任务调度：

概略来说涉及到以下方法：
在这里插入图片描述
以下是基于源码执行流程的具体分析：

（1）Job 由最终的RDD和Action方法封装而成；
（2）SparkContext将Job交给DAGScheduler提交，它会根据RDD的血缘关系构成的DAG进行切分，将一个Job划分为若干Stages，具体划分策略是，由最终的RDD不断通过依赖回溯判断父依赖是否是宽依赖，即以