Spark的常用RDD

最新推荐文章于 2023-03-31 11:34:07 发布

Zzreal

最新推荐文章于 2023-03-31 11:34:07 发布

阅读量3.2k

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zonzereal/article/details/79181623

版权

本文详细介绍了Spark中的RDD操作，包括转换算子如cache、filter、map等，非转换算子如count、collect、saveAsTextFile等，以及特殊的DoubleRDD和tuple类型RDD的操作，如histogram、reduceByKey等。这些操作对于理解和使用Spark进行大数据处理至关重要。

摘要由CSDN通过智能技术生成

1）转换算子--transformations

++ 合并两个RDD。生产一个新的RDD

cache 缓存rdd，减少之后使用相同逻辑rdd的计算量，只有一个级别 Memery

cartesian 笛卡尔集

coalesce 重新设置分区操作，注意，有两个参数，一个分区个数，是否shuffle。

collect 根据一个偏函数返回一个符合偏函数的结果集RDD

distinct（2种构造）

filter 过滤，根据里面的规则返回一个过滤过后的rdd

flatMap --1对多，可以理解成讲原来的数据集拍扁了

glom --将rdd分区元素变成一个数组元素

groupBy（3种构造） --根据自己定义的规则来划分组

intersection（3种构造）--返回两个rdd中相同的数据集合

keyBy --

map --

mapPartitions--

mapPartitionsWithIndex --多了个分区索引

persist --也是缓存只是可以设置缓存级别

pipe（3种构造）

repartition

sample --抽样

setName

sortBy --根据规则来定义排序。

subtract（3个构造） --》返回rdd2中没有的rdd1元素，可以理解成左关联后去掉交集

toJavaRDD

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的常用RDD

1）转换算子--transformations ++ 合并两个RDD。生产一个新的RDD cache 缓存rdd，减少之后使用相同逻辑rdd的计算量，只有一个级别 Memery cartesian 笛卡尔集 coalesce 重新设置分区操作，注意，有两个参数，一个分区个数，是否shuffle。 collect 根据一个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。