Spark中宽依赖、窄依赖、Job执行流程

最新推荐文章于 2024-03-07 11:44:52 发布

万里长江横渡

最新推荐文章于 2024-03-07 11:44:52 发布

阅读量708

点赞数 1

分类专栏： Spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/weixin_44870066/article/details/128174669

版权

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、宽依赖和窄依赖的定义

【宽依赖：】
宽依赖表示同一个父（上游）RDD 的 Partition 被多个子（下游）RDD 的 Partition 依赖，会引起 Shuffle，总结：宽依赖我们形象的比喻为多生。有shuffle阶段

【窄依赖：】
窄依赖表示每一个父(上游)RDD 的 Partition 最多被子（下游）RDD 的一个 Partition 使用，窄依赖我们形象的比喻为独生子女。没有shuffle阶段

二、为什么要区分宽窄依赖

【宽依赖】
Spark可以根据宽依赖进行Stage阶段划分，同一个stage阶段中的都是窄依赖，可以对该阶段内的窄依赖优化

【窄依赖】
Spark可以对窄依赖进行优化：合并操作，形成pipeline(管道)，同一个管道中的各个操作可以由同一个线程执行完，且如果有一个分区数据丢失，只需要从父RDD的对应分区做重新计算即可，不需要重新计算整个任务，提高容错

【总结】
窄依赖：并行化+容错
宽依赖：进行阶段划分(shuffle后的阶段需要等待shuffle前的阶段计算完成才能执行)

三、DAG和Stage

【DAG】
Spark的DAG:就是spark任务/程序执行的流程图!
DAG的开始:从创建RDD开始
DAG的结束:到Action结束
一个Spark程序中有几个Action操作就有几个DAG!

【Stage】
为什么要划分Stage？
Spark会根据代码执行流程形成一张有向无环图DAG，在执行的时候可以按照图中的流程顺序进行执行，并进行优化，但是如何优化呢？
对于宽依赖：由于Shuffle的存在，必须等到RDD的shuffle处理完成后，才能开始接下来的计算，所以需要在此处进行Stage的切分
对于窄依赖：RDD之间的数据没有shuffle，多个数据处理可以在同一台机器的内存中完成，所以窄依赖在Spark中被划分为同一个Stage
所以，可以根据宽窄依赖对DAG进行Stage阶段划分，同在一个stage阶段中的就是窄依赖。
在这里插入图片描述
Stage:是DAG中根据shuffle划分出来的阶段!
前面的阶段执行完才可以执行后面的阶段!
同一个阶段中的各个任务可以并行执行无需等待!