RDD宽依赖、窄依赖&DAG

最新推荐文章于 2023-10-03 10:45:16 发布

9随遇而安

最新推荐文章于 2023-10-03 10:45:16 发布

阅读量518

点赞数

分类专栏： spark读书笔记文章标签： spark

本文为博主原创文章，转载请标明原址

本文链接：https://blog.csdn.net/zheng911209/article/details/97309189

版权

3 篇文章 0 订阅

订阅专栏

每个父RDD中的partition最多被子RDD中的一个Partition所使用；子RDD中partition的个数大于等于父RDD中partition的个数

父RDD与子RDD是一对一的依赖关系（OneToOneDependency）：map、filter、join with inputs co-partitioned；
注：子RDD只依赖父RDD中相同partitionID的partition
父RDD与子RDD是一对一的范围内依赖关系（RangeDependency）：union

一个父RDD的partition会被多个子RDD的partition所使用，会导致计算中产生shuffle；

eg：groupByKey、join with inputs not co-partitioned
存在问题：由于一个父RDD的一个partition对应子RDD的多个partition，会出现部分计算结果丢失，单一计算丢失的数据无法达到效果，便重新计算该步骤中的所有数据，从而导致计算数据重复。

宽依赖一定有shuffle，有shuffle不一定是宽依赖； 
两个要join的rdd的partition数相同，这种情况是窄依赖，其余情况的join都是宽依赖

生成重点是stage划分，划分依据是RDD之间的依赖关系；
程序提交后，高度调度器将所有RDD看成一个stage，对此stage从后往前回溯，遇到shuffle就断开，遇到窄依赖则归并到同一个stage，等所有步骤回溯完成，则形成一个DAG图

关注