Spark内核原理之RDD之间的依赖关系

宽窄依赖

在这里插入图片描述
ShuffleDependency:宽依赖
NarrowDependency:窄依赖

宽依赖

概述
父RDD的一个分区会被子RDD的多个分区所依赖
特点

  • 一对多:一个父RDD对应多个子RDD

应用场景
例如:RDD的reduceByke()、join()
在这里插入图片描述

窄依赖

概述
父RDD的一个分区只会被子RDD的一个分区所依赖

特点

  • 一对一:一个父RDD对应一个子RDD

应用场景
例如RDD的map()、union()、join()
在这里插入图片描述
注:

一个子RDD的一个分区可以多应多个父RDD的一个分区,例如使用union()、join都会将两个RDD合并成一个RDD
所以当遇到一个子RDD的分区只会依赖父RDD的一个分区的说法是错误的

为什么需要宽窄依赖

  1. 为什么使用窄依赖?
    Spark可以对窄依赖进行优化:合并操作,形成管道,同一个管道中的各个操作可以由同一个线程执行完,且如果有一个分区数据丢失,只需要从父RDD的对应的分区重新计算即可,不需要重新计算整个任务,提高容错

  2. 宽依赖:Spark可以根据宽依赖进行state阶段划分,同一个stage阶段中的都是窄依赖M可以对该阶段内的窄依赖进行优化

在这里插入图片描述
总结:

窄依赖:并行化+容错
宽依赖(阶段划分的依据):进行阶段划分(shuffle后的阶段需要等待shuffle前的阶段计算完成后才能执行)
什么是shuffle前的阶段:就是当多个管道全部操作完的阶段

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Spark RDD(Resilient Distributed Dataset)是Spark中最基本的数据处理模型,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD的核心思想是将数据分成一些小的数据块,这些小数据块可以在集群中的不同节点上进行并行处理。RDD的特点是可以在内存中缓存数据,因此可以快速地进行多次计算。同时,RDD也支持容错,即当某个节点出现故障时,可以重新计算丢失的数据块,从而保证计算的正确性。 RDD的实现原理主要包括以下几个方面: 1. RDD的数据分区RDD将数据分成一些小的数据块,这些小数据块可以在集群中的不同节点上进行并行处理。分区的个数可以通过分区器来控制。 2. RDD依赖关系RDD之间存在依赖关系,即一个RDD可以依赖于另一个RDD依赖关系分为窄依赖和宽依赖,窄依赖表示每个RDD分区最多只被一个RDD分区使用,宽依赖表示每个RDD分区可能被多个RDD分区使用。 3. RDD的操作:RDD支持两种类型的操作,即转换操作和行动操作。转换操作是指对RDD进行转换,生成一个新的RDD,而行动操作是指对RDD进行计算,返回一个结果。 总之,Spark RDDSpark中最基本的数据处理模型,它的实现原理包括数据分区依赖关系和操作等方面。RDD的特点是可以在内存中缓存数据,因此可以快速地进行多次计算,并且支持容错,保证计算的正确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据老人家i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值