大数据--spark生态3--RDD介绍及其算子

斑马！

已于 2022-03-09 11:30:13 修改

阅读量528

点赞数

分类专栏：大数据 # spark生态、flink生态文章标签： big data spark 大数据

于 2021-06-06 11:04:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yezonghui/article/details/117620680

版权

本文详细介绍了Spark中的RDD（弹性分布式数据集）的创建，包括从文件系统和并行集合创建。接着探讨了RDD的操作，特别是转换和行动操作，以及它们的惰性机制和持久化。此外，文章深入讨论了各种转换算子，如map、flatMap、filter和reduceByKey，以及行动算子如reduce、collect和save。通过对RDD的深入理解，有助于提升Spark应用的性能和效率。

摘要由CSDN通过智能技术生成

目录

一：RDD创建

1.1从文件系统中加载数据创建RDD

1.2通过并行集合（数组）创建RDD

二：RDD操作

2.1转换操作

2.2行动操作

2.3 惰性机制

三：rdd转换算子

3.1 value类型

3.2 key-value类型

四：rdd行动算子

一：RDD创建

1.1从文件系统中加载数据创建RDD

采用textFile()方法，该方法把文件的url作为参数。这个url可以是：

本地文件系统的地址
分布式文件系统HDFS的地址

1.2通过并行集合（数组）创建RDD

通过调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（数组）上创建。

二：RDD操作

2.1转换操作

对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用
转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作的时候，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。
常用的转换操作：

map()和flatMap()区别
groupByKey()和reduceByKey()的区别

2.2行动操作

动作操作彩色真正触发计算的地方。Spark程序执行到行动操作时候，才会执行真正的计算，从文件中加载数据，完成一次又一次的转换操作，最终完成动作操作得到结果。
常见的动作操作

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据--spark生态3--RDD介绍及其算子

一：RDD创建1.1从文件系统中加载数据创建RDD 采用tex1.2通过并行集合（数组）创建RDD
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。