spark任务调度源码浅析

最新推荐文章于 2022-02-21 20:35:59 发布

壮志-凌云

最新推荐文章于 2022-02-21 20:35:59 发布

阅读量289

点赞数

分类专栏： spark 文章标签： spark 资源调度 core 源码大数据

本文链接：https://blog.csdn.net/weixin_43607641/article/details/83862725

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

废话：
因为前几天比较了idea和eclipse感觉查询上idea好用，想试试idea，但是用它挖了几天源码后。idea不熟练,挖代码苦不堪言，再度回到eclipse中。

**前言：**上篇已经讲解过spark1.6版本中资源调度的源码，standalone-cluster模式如何实现。今天再扒一扒spark中任务调度的实现。大家都知道，大数据中，计算向数据移动，我个人理解的其实就是计算向资源移动，那么spark中是如何将你提交的app计算任务，分配到集群中各个计算节点中的呢？

逻辑实现分析：我们以client模式讲解下（cluster类同，只不过是将启动driver的方式交给了master,master再去找一台资源充足的启动driver，上篇说过），client提交一个app的任务给driver，当代码中执行action算子之后，driver中会根据DAGScheduler执行action算子，根绝app划分宽窄依赖，然后形成DAG，生成很多stage,每一个stage包含一组task；taskschduler遍历task集合集合，发送task任务到worker节点上的的exeutor上执行。

在这里插入图片描述

一、寻找程序入口
1。我们以图中伪代码为例，寻找action算子，找到触发driver的入口。我们找到RDD这个类中foreach算子的位置。
在这里插入图片描述
2。点击跟踪sc.runJob，追踪n多runJob

在这里插入图片描述

在这里插入图片描述
3.找到这里，我们可以看到，仍然在SparkcContext这个类中，dagScheduler开始划分宽窄依赖

4。点击dagScheduler.runJob，找到核心方法submitJob

在这里插入图片描述

在这里插入图片描述
二、Job分析（这里比较绕）
1.这里用eventProcessLoop.post方法，传了一个JObsubmit的方法。

在这里插入图片描述
2。点进post方法，可以看到，把submit的方法放到了队列里面。

这个queue是一个BlockingQueue

在这里插入图片描述
3.但是在哪里真正启动这个线程呢？我们返回上面的eventProcessLoop.post 方法，点击eventProcessLoop，找到他的定义。

4。点击DAGSchedulerEventProcessLoop 查看下这是个什么鬼

在这里插入图片描述
我们可以看到这个类继承了EventLoop，点击eventProcessLoop.start()同时看到了这个方法上面启动了二.2中我们讲到的启动了我们的线程

在这里插入图片描述

在这里插入图片描述
5。往上翻，看下是哪个方法执行了eventProcessLoop.start()，可以看到是DAGScheduler这个类

6.因此，我们上面是分析到，我们通过SparkContext的runJob方法-> dagScheduler.runJob->DAGScheduler的runJob中submitJob方法->eventProcessLoop.post方法将JobSubmitted(
jobId, rdd, func2, partitions.toArray, callSite, waiter,
SerializationUtils.clone(properties))这个函数放到一个名字为eventQueue队列中，但是这个队列的消费端，在DAGScheduler这个类中。因此我们下一步需要找打的创建DAGScheduler类的入口。

在我们编写代码时，我们需要创建SparkContext，通过这个类来生产RDD,SparkContext是spark的唯一通道，因此很可能在执行SparkContext 时候就已经创建好了。经过查找，果然是这样的。
因此我们猜想，其实driver在代码执行创建SparkContext的时候就已经创建好了。
在这里插入图片描述