Spark内核原理之RDD之间的依赖关系

宽窄依赖

在这里插入图片描述
ShuffleDependency:宽依赖
NarrowDependency:窄依赖

宽依赖

概述
父RDD的一个分区会被子RDD的多个分区所依赖
特点

  • 一对多:一个父RDD对应多个子RDD

应用场景
例如:RDD的reduceByke()、join()
在这里插入图片描述

窄依赖

概述
父RDD的一个分区只会被子RDD的一个分区所依赖

特点

  • 一对一:一个父RDD对应一个子RDD

应用场景
例如RDD的map()、union()、join()
在这里插入图片描述
注:

一个子RDD的一个分区可以多应多个父RDD的一个分区,例如使用union()、join都会将两个RDD合并成一个RDD
所以当遇到一个子RDD的分区只会依赖父RDD的一个分区的说法是错误的

为什么需要宽窄依赖

  1. 为什么使用窄依赖?
    Spark可以对窄依赖进行优化:合并操作,形成管道,同一个管道中的各个操作可以由同一个线程执行完,且如果有一个分区数据丢失,只需要从父RDD的对应的分区重新计算即可,不需要重新计算整个任务,提高容错

  2. 宽依赖:Spark可以根据宽依赖进行state阶段划分,同一个stage阶段中的都是窄依赖M可以对该阶段内的窄依赖进行优化

在这里插入图片描述
总结:

窄依赖:并行化+容错
宽依赖(阶段划分的依据):进行阶段划分(shuffle后的阶段需要等待shuffle前的阶段计算完成后才能执行)
什么是shuffle前的阶段:就是当多个管道全部操作完的阶段

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据老人家i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值