- 相关知识
RDD介绍
RDD是Spark
的核心抽象,即 弹性分布式数据集(residenta distributed dataset
)。代表一个不可变,可分区,里面元素可并行计算的集合。其具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。 在Spark
中,对数据的所有操作不外乎创建RDD
、转化已有RDD
以及调用 RDD
操作进行求值。
RDD结构图
RDD具有五大特性:
-
一组分片(
Partition
),即数据集的基本组成单位(RDD
是由一系列的partition
组成的)。将数据加载为RDD
时,一般会遵循数据的本地性(一般一个HDFS
里的block
会加载为一个partition
)。 -
RDD
之间的依赖关系。依赖还具体分为宽依赖和窄依赖,但并不是所有的RDD
都有依赖。为了容错(重算,