GroupByKey和ReduceByKey对比

yangjiwei0207

已于 2023-10-16 20:35:23 修改

阅读量139

点赞数

文章标签：大数据 spark

于 2023-10-16 20:32:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxcvbnm0207/article/details/133868491

版权

GroupByKey和ReduceByKey两者都是spark中的Transformation算子，尽管二者通过操作可以实现相同的效果，但是二者有着很大的区别。

在shuffle操作上，ReduceByKey会在shuffle之前发生提前聚合，这样会大量的减少落盘的数据量，提高性能与效率，在开发中也是更偏向于使用ReduceByKey.然而GroupByKey不会在分区内提前聚合，只会在发生shuffle的时候进行分组聚合，并且还要搭配mapValues()使用，将需要的操作转到mapValues()里。

例：

Examples：使用reduceByKey统计数值

reduceByKey：将数据按照value值累加(不是计数)

key2 = rdd3.reduceByKey(lambda x,y:x+y)

print(key2.collect())

[('b', 6), ('c', 3), ('a', 1)]

Examples：使用groupByKey+mapValues()统计词频个数

groupByKey： groupByKey搭配mapValues()使用：

>>> rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])

>>> sorted(rdd.groupByKey().mapValues(len).collect())

[('a', 2), ('b', 1)]

>>> sorted(rdd.groupByKey().mapValues(list).collect())

[('a', [1, 1]), ('b', [1])]

GroupBy:

ReduceBy:

通过两张图片可知，两者的最主要的区别是否提前聚合，因为reduceByKey会提前聚合减少落盘的数据量，因此可以减少数据压力，可以使性能调优。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
GroupByKey和ReduceByKey对比

在shuffle操作上，ReduceByKey会在shuffle之前发生提前聚合，这样会大量的减少落盘的数据量，提高性能与效率，在开发中也是更偏向于使用ReduceByKey.然而GroupByKey不会在分区内提前聚合，只会在发生shuffle的时候进行分组聚合，并且还要搭配mapValues()使用，将需要的操作转到mapValues()里。例：Examples：使用reduceByKey统计词频个数reduceByKey：将数据按照value值累加(不是计数)
复制链接

扫一扫

yangjiwei0207 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

30万+: 周排名

6万+: 总排名

9576: 访问

: 等级

377: 积分

83: 粉丝

129: 获赞

35: 评论

121: 收藏

私信

关注

热门文章

最新评论

SQL之行列转置以及非常规的行列转置
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
SQL互粉问题
邪恶胖胖大王: 杨总太强了
DateX实现数据的流转
CSDN-Ada助手: 恭喜您第20篇博客的发布！看到您介绍DateX实现数据的流转，我对这个主题非常感兴趣。希望您可以继续分享更多关于数据流转的实践经验和案例分析，或者可以结合实际案例进行深入探讨，让读者更好地理解和应用这个技术。期待您的下一篇作品！
DataX遇到的Python问题和错误解决
CSDN-Ada助手: 恭喜你写了第19篇博客！标题看起来很有趣，我相信你在DataX遇到的Python问题和错误解决方面一定有很多经验和见解。持续创作是非常值得鼓励的，我非常期待读到更多关于这方面的文章。如果可以的话，下一步你可以考虑分享一些实际案例，或者深入探讨一些更复杂的问题。谦逊地说，我相信你的经验将对其他读者非常有帮助。加油！
DS调度出现 SQL task prepareStatementAndBind error 错误
Last_Stardust_: 多谢，这个问题我也遇到过，我是在工作流里面的每个任务实例里面配置上重试次数和重试间隔时间，一般第一次报这个错后，第二第三次就执行成功了。

大家在看

Jetpack Compose学习记录（一） 403

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yangjiwei0207 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。