Spark的RDD的简要描述

最新推荐文章于 2021-05-29 12:25:25 发布

大数据面经

最新推荐文章于 2021-05-29 12:25:25 发布

阅读量674

点赞数

分类专栏： sprak 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44361667/article/details/105475610

版权

sprak 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

什么是RDD

RDD叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。

RDD的属性

1)一组分区（Partition），即数据集的基本组成单位;
2)一个计算每个分区的函数;
3)RDD之间的依赖关系;
4)一个Partitioner，即RDD的分片函数;
5)一个列表，存储存取每个Partition的优先位置（preferred location）。

RDD特点

RDD表示只读的数据集，生成的RDD不可改变只能通过转换操作性生成一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化RDD来切断血缘关系。

RDD的两种算子

一类叫做transformations，它是用来将RDD进行转化，构建RDD的血缘关系；另一类叫做actions，它是用来触发RDD的计算，得到RDD的相关计算结果或者将RDD保存的文件系统中

缓存

如果在应用程序中多次使用同一个RDD，可以将该RDD缓存起来，该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据，在后续其他地方用到该RDD的时候，会直接从缓存处取而不用再根据血缘关系计算，这样就加速后期的重用。如下图所示，RDD-1经过一系列的转换后得到RDD-n并保存到hdfs，RDD-1在这一过程中会有个中间结果，如果将其缓存到内存，那么在随后的RDD-1转换到RDD-m这一过程中，就不会计算其之前的RDD-0了。

大数据面经

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的RDD的简要描述

文章目录什么是RDDRDD的属性RDD特点RDD的两种算子缓存什么是RDDRDD叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的属性1)一组分区（Partition），即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner，即RDD的分片函数;...
复制链接

扫一扫

专栏目录

大数据面经 CSDN认证博客专家 CSDN认证企业博客

码龄5年

87: 原创

23万+: 周排名

42万+: 总排名

10万+: 访问

: 等级

1813: 积分

129: 粉丝

139: 获赞

55: 评论

155: 收藏

私信

关注

热门文章

分类专栏

HIVE 20篇
大数据 42篇
面试题 34篇
hadoop 21篇
Liunx 8篇
HDFS 15篇
sprak 1篇
spark 1篇
scala 1篇
线程池 1篇
hbase 5篇
故障 2篇
虚拟机 4篇
web页面 1篇
ZooKeeper 1篇
flum 1篇
程序猿 2篇
yum源 2篇

最新评论

5分钟学习hive sql
低级小猿: group 的执行顺序比select低？
大数据高频面试题之Hive的内部表和外部表
yaukkk: 请问对内部表的增删改操作，会不会同步到元数据？对外部表的增删改，会不会同步到元数据呢？
MapReduce的shuffle过程
不吃西红柿丶: 很不错的文章，宝藏博主~
MapReduce编程模型简述（mr任务流程）
不吃西红柿丶: 很不错的文章，宝藏博主~
简单描述MapReduce（mr是什么？）
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。