Spark RDD中两种算子之一：常见Transformation算子小结

最新推荐文章于 2022-06-28 14:48:23 发布

QianL.

最新推荐文章于 2022-06-28 14:48:23 发布

阅读量1.5k

点赞数 1

分类专栏： Spark 文章标签： Spark 大数据 RDD 算子

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44319333/article/details/88818175

版权

RDD：弹性分布式数据集，是一种特殊集合，支持多来源，有容错机制，可以被缓存，支持并行操作，一个RDD代表多个分区里的数据集。

RDD有两种算子：
1.Transformation（转换）：属于延迟Lazy计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住数据集的逻辑操作；
2.Action（执行）：触发Spark作业运行，真正触发转换算子的计算；

RDD中算子的运行过程：
输入：
在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行管理。
运行：
在Spark数据输入形成RDD后便可以通过变换算子，如filter等，对数据进行操作并将RDD转化为新的RDD，通过Action算子，触发Spark提交作业，。如果数据需要复用，可以通过Cache算子，将数据缓存到内存。
输出：
程序运行结束，数据会输出Spark运行时的空间，存储到分布式存储中（如saveAsTextFile输出到HDFS），或Scala数据或集合中（collect输出到Scala集合，count返回Scala Int型数据）

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD中两种算子之一：常见Transformation算子小结

RDD：弹性分布式数据集，是一种特殊集合，支持多来源，有容错机制，可以被缓存，支持并行操作，一个RDD代表多个分区里的数据集。RDD有两种算子：1.Transformation（转换）：属于延迟Lazy计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住数据集的逻辑操作；2.Action（执行）：触发Spark作业运行，真正触发转换算子的计算；RDD中算子的运行过程：输入...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。