讨论Spark中RDD四种转换聚合算子的区别(源码角度)

首先,让我们先思考一个问题:reduceByKey、foldByKey、aggregateByKey、combineByKey的区别?

解释:
1.reduceByKey: 相同key的第一个数据不进行任何计算,分区内和分区间计算规则相同

2.foldByKey: 相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则相同

3.AggregateByKey:相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则可以不相同

4.CombineByKey:当计算时,发现数据结构不满足要求时,可以让第一个数据转换结构。分区内和分区间计算规则不相同

为了更直白的进行解释,取出了部分源码,并做了直白的操作(删减了一些没有影响到的源码)

注意下面源码只是为了易懂进行了备注,实际情况需要实际了解—>>>
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
根据上述简化的源码可以分析得到,其实这四种聚合算子底层的实现都是combineByKey,只是其中的参数发生了系统的变化,目的是为了实现多个计算场景

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值