Spark分析之Dependency

Spark中的RDD(弹性分布式数据集)根据依赖关系分为窄依赖和宽依赖。窄依赖允许在一个节点上一次性计算所有父partition,提供高效容错能力,如map和filter操作。而宽依赖需要父partition数据shuffle到多个节点,如reduceByKey操作,当出现故障时,恢复代价较大。理解这两种依赖关系对于优化Spark作业性能和理解其容错机制至关重要。
摘要由CSDN通过智能技术生成

在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;

因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;


根据依赖关系的不同,可以将RDD分成两种不同的类型:宽依赖和窄依赖

窄依赖:一个父RDD的partition至多被子RDD的某个partition使用一次

宽依赖:一个父RDD的partition会被子RDD的partition使用多次,需要shuffle操作

图中方框描述:外面的大方框是一个RDD,里面的小方块是RDD中的partitio

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值