Spark任务执行流程

最新推荐文章于 2022-02-28 14:48:52 发布

wtzhm

最新推荐文章于 2022-02-28 14:48:52 发布

阅读量862

点赞数 2

分类专栏： sparksql 文章标签： Spark任务执行流程

本文链接：https://blog.csdn.net/wtzhm/article/details/80871087

版权

sparksql 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

Spark任务执行流程

DAGScheduler 和TaskScheduler都在Driver端（开启spark-shell的那一端），main函数创建SparkContext时会使得driver和Master节点建立连接，Master会根据任务所需资源在集群中找符合条件的worker.然后Master对worker进行RPC通信，通知worker启动Executor ，Executor会和Driver 建立连接，随后的工作worker和Master不再有关系。然后Driver会向Executor提交Task。

Spark任务执行流程

1. RDD Objects
RDD构建，RDD进行一系列transformation操作后最终遇到Action方法时，DAG图即确定了边界，DAG图形成,然后会将DAG提交给DAGScheduler.

DAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。

2、DAGScheduler(调度器)

将DAG切分成多个stage,切分依据(宽依赖—shuffledRDD—即数据需要网络传递)

RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖和宽依赖
窄依赖指的是每一个父RDD的partition最多被子RDD的一个Partition使用。(独生子女)
宽依赖指的是多个子RDD的partition会依赖同一个父RDD的Partition。(超生)

3. TaskScheduler

将多个stage封装到TaskSet后提交给TaskScheduler

4.Worker
随后TaskScheduler把任务提交给worker执行

wtzhm

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark任务执行流程

Spark任务执行流程DAGScheduler 和TaskScheduler都在Driver端（开启spark-shell的那一端），main函数创建SparkContext时会使得driver和Master节点建立连接，Master会根据任务所需资源在集群中找符合条件的worker.然后Master对worker进行RPC通信，通知worker启动Executor ，Executor会和Dr...
复制链接

扫一扫