spark 常用转换和行动操作

最新推荐文章于 2024-05-12 15:55:25 发布

东方129

最新推荐文章于 2024-05-12 15:55:25 发布

阅读量3k

点赞数

文章标签： spark scala big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoruirui1294/article/details/120812264

版权

1、转换操作：

任意数据类型的RDD.

map()：接收一个函数,并将函数用于RDD中的每一个元素，将函数返回结果作为RDD中对应的元素值。返回类型不需要和输入类型一样。

如：url集合中每个对应url的主机名输出。

filter()：接收一个函数，并将RDD中满足该函数的元素放入新的RDD中。如输入string，输出double类型。

flatmap():每个输入元素，生成多个输出元素。

返回一个返回值序列的迭代器，不是由迭代器组成而是一个包含各个迭代器可访问的所有元素的RDD.如：把输入的字符串切分为单词。

2、伪集合操作：

要求操作的RDD有相同的数据类型。

union返回一个包含两个RDD中所有元素的RDD,如果输入的RDD中有重复数据，spark的union()操作也会包含这些重复的数据。distict()实现相同的效果。

intersection()只返回两个RDD中都有的元素。也会去掉所有重复的元素（单个RDD中重复的元素也会一起移除），但性能相比union差，需要通过网络混洗数据发现共有元素。

需要移除数据。substract(other)接收另一个RDD作为一个参数，返回一个由只存在第一个RDD中而不存在在第二个RDD中所有元素组成的RDD.也需要数据混洗。

返回两个RDD的笛卡尔积。cartesian(other)返回所有kennel的（a,b)对。a、b来自两个RDD.

如：求用户相似度，求一个RDD与自身的笛卡尔积。

3、行动操作

reduce():操作两个相同数据类型的RDD,并返回同样类型的新元素。

如函数+，对RDD进行累加，计算出所有元素的总和、元素个数、以及其他类型

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark 常用转换和行动操作

1、转换操作：任意数据类型的RDD.map()：接收一个函数,并将函数用于RDD中的每一个元素，将函数返回结果作为RDD中对应的元素值。返回类型不需要和输入类型一样。如：url集合中每个对应url的主机名输出。filter()：接收一个函数，并将RDD中满足该函数的元素放入新的RDD中。如输入string，输出double类型。flatmap():每个输入元素，生成多个输出元素。返回一个返回值序列的迭代器，不是由迭代器组成而是一个包含各个迭代器可访问的所有元素的RDD.如：把输入的字
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。