初始spark（二）之RDD

最新推荐文章于 2022-11-11 13:33:08 发布

wangyangmingtian

最新推荐文章于 2022-11-11 13:33:08 发布

阅读量286

点赞数

分类专栏： spark 大数据文章标签： spark 大数据 RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangmingtia/article/details/105434429

版权

spark 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

我们都知道spark是能够并行的计算，并且是基于内存的，这大大的提升了计算的效率，spark在进行计算的时候，需要借助于SparkContext（驱动程序器），将数据分散到集群中，并在节点中并行的开启计算，最终再将计算的结果进行汇总。

一：RDD

提到数据计算，不得不提到spark中的一个重要的概念，那就是RDD（弹性分布式数据集），从名称来看便知RDD是分布在集群中的，spark计算主要是针对RDD来计算的。

在spark中的应用程序始终都会遵从的一些步骤如下：

（1）从外部存储中创建输入的RDD

（2）通过转化操作将RDD转化为另一个新的RDD

（3）如果定义的RDD需要被重复的读取，使用persist()操作将目标RDD持久化到内存中

（4）通过行动操作触发并行计算

（二）创建RDD的方式

谈到RDD，首先应该需要介绍的便是如何创建RDD，不然谈何算起，spark中创建RDD的方式一共有两种：从外部存储中读取和将RDD中的集合进行并行化

从外部存储读取：

在spark中，最常见的创建RDD的方式，便是从外部存储中读取文件，spark可以很方便的读取到外部存储的文件，并转化为RDD，可以读取外部的txt，parquet以及json等文件，读取到的文件可以直接转化为RDD。接下来演示的代码均是基于scala进行演示的，如下：

val result=sc.textFile(“path.txt”)

使用该方式便可以将txt文件转化为RDD。

（三）RDD操作：

在创建了RDD之后，之后便是对RDD进行相关的计算操作，在spark中关于RDD的操作主要有两大操作分别为：转化操作和行动操作。

（1）转化操作：所谓的转化操作其实就是将一个RDD转化为另一个新的RDD，转化操作并不会对原有的RDD有什么操作，只是生成了一个符合要求的新的RDD，该RDD可以理解为原有RDD的子RDD，相关的转化操作如：map(),filter()等

（2）行动操作：顾名思义，该操作便是spark中激发计算的操作，一旦遇到行动操作，便会激发一系列的转化操作，并最终将最终的结果写入SparkContext中或者存入外部文件中，相关的行动操作如：count等

wangyangmingtian

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。