【Spark】Spark基本操作

最新推荐文章于 2024-07-11 10:38:26 发布

New soul~

最新推荐文章于 2024-07-11 10:38:26 发布

阅读量564

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44039347/article/details/91598465

版权

本文介绍了Spark的基本操作，包括构建新的RDD数据集的方法，如map、filter、flatMap等，以及Action操作，如reduce、collect、count等。这些操作涵盖了数据转换、数据聚合及结果获取等多个方面。

摘要由CSDN通过智能技术生成

前言

根据已有RDD创建新的RDD数据集build

（1）map(func)：对调用map的RDD数据集中的每个element都使用func，然后返回一个新的RDD，这个返回的数据集是分布式的数据集。

（2）filter(func) ：对调用filter的RDD数据集中的每个元素都使用func，然后返回一个包含使func为true的元素构成的RDD。

（3）flatMap(func)：和map很像，但是flatMap生成的是多个结果。

（4）mapPartitions(func)：和map很像，但是map是每个element，而mapPartitions是每个partition。

（5）mapPartitionsWithSplit(func)：和mapPartitions很像，但是func作用的是其中一个split上，所以func中应该有index。

（6）sample(withReplacement,faction,seed)：抽样。

（7）union(otherDataset)：返回一个新的dataset，包含源dataset和给定dataset的元素的集合。

（8）distinct([numTasks])：返回一个新的dataset，这个dataset含有的是源dataset中的distinct的element。

（9）groupByKey(numTasks)：返回(K,Seq[V])，也就是Hadoop中reduce函数接受的key-val

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

New soul~ CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

74万+: 周排名

182万+: 总排名

4万+: 访问

: 等级

735: 积分

51: 粉丝

84: 获赞

12: 评论

210: 收藏

私信

关注

热门文章

最新评论

嵌入式知识点
-ATAO----: 专科吧
嵌入式知识点
-ATAO----: linux是嵌入式操作系统。 Linux是一种嵌入式操作系统，可以运行在掌上电脑、机顶盒或游戏机上；且可以运行在多种硬件平台上，如具有x86、680x0、SPARC、Alpha等处理器的平台。
嵌入式知识点
我是地摊卖代码的: 问一下，嵌入式是本科阶段还是硕士
物联网工程设计与实施知识点
m0_47393077: 中间5 6 7 8章的内容呢
【Spark】Spark基本操作
是小海腾呀: 少了scala

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。