什么是RDD

最新推荐文章于 2024-02-29 23:38:16 发布

Jimi编程2016

最新推荐文章于 2024-02-29 23:38:16 发布

阅读量225

点赞数 1

分类专栏： spark 文章标签： spark rdd

本文链接：https://blog.csdn.net/weixin_43592194/article/details/88549758

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

全称是Resilient Distributed Datasets(弹性分布式数据集)

RDD官方的定义:
A Resilient Distributed Dataset:一个弹性分布式的数据集合;
A list of partitions:它是一个partitions的集合(List)
A function for computing each split:用于计算每个拆分的函数;RDD里面的数据如何进行计算;(算子)
A list of dependencies on other RDDs:依赖于其他RDD的列表;一个算子无法实现,需要多个算子相互结合进行完成任务;多个算子是有顺序的;
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned):或者，键值RDD的分区程序（例如，说RDD是哈希分区的）;凡是碰到了海量数据,提高查询效率就是两个方法:(树形结构和哈希;)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file):或者，计算每个拆分的首选位置列表（例如，HDFS文件的块位置）

RDD操作
RDD的操作(容器的操作)叫算子。
分为两类：transformations(转换)算子和action(行为)算子。
transformation可以将一个RDD转换为下一个RDD，也是为了方便下一步操作。
action是可以触发任务的，当RDD达到一定的条件以后就可以调用action任务，开始真正的处理。
如果RDD的返回值还是RDD那就是transformations算子,如果是非RDD那就是action算子;transformations算子直到遇到action算子的时候才会执行,否则永远不执行;(这种情况叫懒)

reduceByKey:action算子,它是Spark新增加的。

Jimi编程2016

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是RDD

全称是Resilient Distributed Datasets(弹性分布式数据集)RDD官方的定义:A Resilient Distributed Dataset:一个弹性分布式的数据集合;A list of partitions:它是一个partitions的集合(List)A function for computing each split:用于计算每个拆分的函数;RDD里面的数...
复制链接

扫一扫