宽窄依赖
ShuffleDependency:宽依赖
NarrowDependency:窄依赖
宽依赖
概述
父RDD的一个分区会被子RDD的多个分区所依赖
特点
- 一对多:一个父RDD对应多个子RDD
应用场景
例如:RDD的reduceByke()、join()
窄依赖
概述
父RDD的一个分区只会被子RDD的一个分区所依赖
特点
- 一对一:一个父RDD对应一个子RDD
应用场景
例如RDD的map()、union()、join()
注:
一个子RDD的一个分区可以多应多个父RDD的一个分区,例如使用union()、join都会将两个RDD合并成一个RDD
所以当遇到一个子RDD的分区只会依赖父RDD的一个分区的说法是错误的
为什么需要宽窄依赖
-
为什么使用窄依赖?
Spark可以对窄依赖进行优化:合并操作,形成管道,同一个管道中的各个操作可以由同一个线程执行完,且如果有一个分区数据丢失,只需要从父RDD的对应的分区重新计算即可,不需要重新计算整个任务,提高容错 -
宽依赖:Spark可以根据宽依赖进行state阶段划分,同一个stage阶段中的都是窄依赖M可以对该阶段内的窄依赖进行优化
总结:
窄依赖:并行化+容错
宽依赖(阶段划分的依据):进行阶段划分(shuffle后的阶段需要等待shuffle前的阶段计算完成后才能执行)
什么是shuffle前的阶段:就是当多个管道全部操作完的阶段