Spark:GroupBy算子

最新推荐文章于 2024-07-14 16:41:48 发布

茂密头发的源猴

最新推荐文章于 2024-07-14 16:41:48 发布

阅读量3.1k

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48109576/article/details/107872627

版权

GroupBy在Spark中是Transformation,产生shuffle
val value1 = rdd.map(x => (x, 1))
val value2 = value1.groupBy(_._1)
看底层源码

也是有个分区器调的是父RDD

点进去看,底层调的是groupByKey

先进过一次map操作返回值当value

数据当key, 然后在调groupByKey

源码实现

先map聚合,聚合之后形成 kv,kv在map

key,

将map._1当key,本身当value

就是第一个map的key,然后key,value做第二个map

在groupByKey
val value = rdd.map(x => (x, 1)).map(y => (y._1, y)).groupByKey()
第一个形成

("spark",1)("hadoop",1)

第二不形成

spark("spark",1)然后在groupByKey相同的key的value聚合

茂密头发的源猴

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark:GroupBy算子

GroupBy在Spark中是Transformation,产生shuffleval value1 = rdd.map(x => (x, 1))val value2 = value1.groupBy(_._1)看底层源码也是有个分区器调的是父RDD点进去看,底层调的是groupByKey先进过一次map操作返回值当value数据当key, 然后在调groupByKey源码实现先map聚合,聚合之后形成 kv,kv在mapkey,将map._1当ke.
复制链接

扫一扫

茂密头发的源猴 CSDN认证博客专家 CSDN认证企业博客

码龄4年

104: 原创

8万+: 周排名

128万+: 总排名

5万+: 访问

: 等级

1116: 积分

4: 粉丝

10: 获赞

4: 评论

95: 收藏

私信

关注

热门文章

分类专栏

1 2篇

最新评论

first_value和last_value
大柴康介: 为什么last_value中c_id为01的倒数第二个s_id是03而不是01
first_value和last_value
大柴康介: 为什么last_value中c_id为01的倒数第二个s_id是03而不是01
redis的List Map＜String, List＞
ctotalk: mark
雪花模型和星型模型和三范式
今日猿人: 雪花模型使用3NF？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。