Spark中的RDD算子（二：Action）

最新推荐文章于 2024-07-24 14:31:07 发布

yangjiwei0207

最新推荐文章于 2024-07-24 14:31:07 发布

阅读量45

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxcvbnm0207/article/details/133714242

版权

Action:

执行一些action操作需要导入一些模块

from operator import add

from operator import mul

from operator import mod

1、collect

2、saveAsText

3、first：

返回第一个RDD元素：first=take(1)

4、take：

取前N个数值，Take the first num elements of the RDD.

Examples ：

>>> sc.parallelize([2, 3, 4, 5, 6]).cache().take(2)

[2, 3]

5、top：

取topN Get the top N elements from an RDD.

Examples ：

>>> sc.parallelize([2, 3, 4, 5, 6], 2).top(2)

[6, 5]

6、takeSample：

takeSample(self, withReplacement, num, seed=None)

Examples ：0-10范围取数，取20个数，种子=1

>>> rdd = sc.parallelize(range(0, 10))

>>> len(rdd.takeSample(True, 20, 1)) 20

7、foreach():

Examples ：

>>> def f(x): print(x)

>>> sc.parallelize([1, 2, 3, 4, 5]).foreach(f)

等价于

>>> rdd2.foreach(lambda x:print(x))

8、coalesce：

用来指定分区的加减，如果加减的分区超过了第一开始指定的分区数，coalesce()指定的分区数不生效，需要开启Fasle使分区重新shuffle:coalesce(self, numPartitions, shuffle=False)

9、fold:

fold: 等价于 aggregate

( zeroValue:自然值, seqOp:分区内, combOp:分区间)=fold(自然值,分区内分区间)

计算所有分区的结果返回一个值，fold内含有自然值，在进行operator操作时候，会在分区内与分区间进行fold操作

例：自然值为1 总共三个分区，则每个分区内都会加上1 然后所有的分区间再加上1 。因此，总共加上4

rdd1 = sc.parallelize([1,2,3,4,5,6],3)

rdd2 = rdd1.fold(1,add)

print('no fold:',rdd1.reduce(add)) # 21

print('fold:',rdd2) # 25

10、reduce:

执行算子，搭配 operator 使用

rdd4 = sc.parallelize([1,2,3,4,5,6])

print(rdd4.reduce(add)) #21

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
Spark中的RDD算子（二：Action）

用来指定分区的加减，如果加减的分区超过了第一开始指定的分区数，coalesce()指定的分区数不生效，需要开启Fasle使分区重新shuffle:coalesce(self, numPartitions, shuffle=False)计算所有分区的结果返回一个值，fold内含有自然值，在进行operator操作时候，会在分区内与分区间进行fold操作。( zeroValue:自然值, seqOp:分区内, combOp:分区间)=fold(自然值,分区内分区间)fold: 等价于 aggregate。
复制链接

扫一扫

yangjiwei0207 CSDN认证博客专家 CSDN认证企业博客

码龄4年

25: 原创

58万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

403: 积分

92: 粉丝

135: 获赞

35: 评论

130: 收藏

私信

关注

热门文章

最新评论

SQL之行列转置以及非常规的行列转置
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
SQL互粉问题
邪恶胖胖大王: 杨总太强了
DateX实现数据的流转
CSDN-Ada助手: 恭喜您第20篇博客的发布！看到您介绍DateX实现数据的流转，我对这个主题非常感兴趣。希望您可以继续分享更多关于数据流转的实践经验和案例分析，或者可以结合实际案例进行深入探讨，让读者更好地理解和应用这个技术。期待您的下一篇作品！
DataX遇到的Python问题和错误解决
CSDN-Ada助手: 恭喜你写了第19篇博客！标题看起来很有趣，我相信你在DataX遇到的Python问题和错误解决方面一定有很多经验和见解。持续创作是非常值得鼓励的，我非常期待读到更多关于这方面的文章。如果可以的话，下一步你可以考虑分享一些实际案例，或者深入探讨一些更复杂的问题。谦逊地说，我相信你的经验将对其他读者非常有帮助。加油！
DS调度出现 SQL task prepareStatementAndBind error 错误
Last_Stardust_: 多谢，这个问题我也遇到过，我是在工作流里面的每个任务实例里面配置上重试次数和重试间隔时间，一般第一次报这个错后，第二第三次就执行成功了。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yangjiwei0207 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。