spark整体执行过程详解

最新推荐文章于 2024-07-02 09:36:29 发布

weixin_43866709

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量1.6k

点赞数 4

分类专栏： spark 文章标签： spark整体执行流程

本文链接：https://blog.csdn.net/weixin_43866709/article/details/88823992

版权

spark 专栏收录该内容

47 篇文章 1 订阅

订阅专栏

spark整体执行过程可分为四个步骤：

1.构建DAG（调用RDD上的方法）
2.DAGScheduler将DAG切分Stage（切分的依据是shuffle），将Stage中生成的Task以TaskSet的形式给TaskScheduler
3.TaskScheduler调度Task（根据资源情况将Task调度到相应的Executor中）
4.Executor接收Task，然后将Task丢入到线程池中执行

在这里插入图片描述

构建DAG

DAG就是有向无环图，他表示数据的执行过程，有方向，无闭环
DAG描述多个RDD的转换过程，任务执行时，可以按照DAG的描述，执行真正的计算（数据被操作的一个过程）
DAG是有边界的：开始（通过SparkContext创建的RDD），结束（触发Action，调用run Job就是一个完整的DAG形成了，一旦触发Action就形成了一个完整的DAG）
一个RDD只是描述了数据计算过程中的一个环节，而DAG由一到多个RDD组成，描述了数据计算过程中的所有环节。
一个Spark Application中有多少个DAG，取决于触发了多少次Action。

下面是WordCount的一个执行过程图：

在这里插入图片描述

切分Stage

一个DAG中可能会产生多种不同类型和功能的Task，会有不同的阶段。
DAGScheduler可以将一个DAG切分成一到多个Stage，DAGScheduler切分的依据是shuffle（宽依赖）

那么为什么要切分Stage？
一个复杂的业务逻辑，比如将多台机器上具有相同属性的数据聚合到一台机器上，这个过程就叫做shuffle。
如果有shuffle，那么就意味着前面阶段产生结果后，才能执行下一个阶段，下一个阶段的计算要依赖上一个阶段的数据。
在同一个Stage中，会有多个算子，可以合并在一起，我们称其为pipeline（流水线：严格按照流程，顺序执行）

也就是说，只有这个任务有shuffle，就会切分Stage，要进行shuffle的RDD之间是宽依赖的关系，那么我们应该首先弄清楚什么是宽依赖，什么是窄依赖。

宽依赖和窄依赖：

RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。

窄依赖的一些算子与过程：
在这里插入图片描述
所以，窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用。
总结：窄依赖我们形象的比喻为独生子女。

宽依赖的一些算子与过程：
在这里插入图片描述

所以，宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition。
总结：窄依赖我们形象的比喻为超生。

而具有shuffle过程的RDD之间就是宽依赖的关系，shuffle的定义是洗牌，将数据打散，父RDD的一个分区中的数据如果给了子RDD的多个分区（只要存在这个可能），就是shuffle。
shuffle会有网络传输数据，但是网络传输，并不意味着就是shuffle。

调度Task

切分完Stage之后，先提交前面的Stage，执行完之后再提交后面的Stage，一个Stage会产生很多业务逻辑相同的Task，然后将这些Task以TaskSet的形式传递给TaskScheduler，然后TaskScheduler会将Task序列化（Task的实质是创建的类的实例，所以要经过序列化才能通过网络发送给其他Executor），根据资源情况，发送给Executor

Executor接收到Task后，先将Task反序列化，然后将Task用一个实现了Runnable接口的实现类包装起来，然后将该包装类丢入到线程池中，然后包装类的Run方法就会被执行，进而调度Task的计算逻辑。

整体执行流程图：

在这里插入图片描述

weixin_43866709

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
spark整体执行过程详解

spark整体执行过程可分为四个步骤：1.构建DAG（调用RDD上的方法）2.DAGScheduler将DAG切分Stage（切分的依据是shuffle），将Stage中生成的Task以TaskSet的形式给TaskScheduler3.TaskScheduler调度Task（根据资源情况将Task调度到相应的Executor中）4.Executor接收Task，然后将Task丢入到线程...
复制链接

扫一扫

专栏目录