0x00 前言
本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。
本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。
文章结构
- 先回顾一下RDD的一些特征以及几个基本概念
- RDD源码分析,整体的源码设计
- 举一个例子,通过这个例子来一步步地追踪源码。
0x01 概念
什么是RDD
RDD(Resilient Distributed Dataset):弹性分布式数据集。
我们可以先大致这样理解RDD:RDD是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来处理这些数据。
注意:RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。
RDD的5个特征
下面是源码中对RDD类的注释:
Internally, each RDD is characterized by five main properties:
- A list of partitions
- A function for computing each split
- A list of dependencies on other RDDs
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
- Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
也是说RDD会有5个基本特征:
有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。
有一个函数计算每一个分片,这里指的是下面会提到的compute函数。
对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖。
可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中的Paritioner接口,控制key分到哪个reduce。
可选:每一个分片的优先计算位置(preferred locations),比如HDFS的block的所在位置应该是优先计算的位置。
宽窄依赖
这里有必要稍微解释一下窄依赖(narrow dependency)和宽依赖(wide dependency)。
如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。
例如map操作会产生narrow dependency,而join操作则产生wide dependency。
如图,两种依赖的区别:
0x02 源码分析
RDD的5个特征会对应到源码中的4个方法和一个属性。
RDD.scala
是一个总的抽象,不同的子类会对下面的方法进行定制化的实现。比如compute方法,不同的子类在实现的时候是不同的。 下面会对每一块单独分析。
//该方法只会被调用一次。由子类实现,返回这个RDD的所有partition。
protected def getPartitions: Array[Partition]
//该方法只会被调用一次。计算该RDD和父RDD的依赖关系
protected def getDependencies: Seq[Dependency[_]] = deps
// 对分区进行计算,返回一个可遍历的结果
def compute(split: Partition, context: TaskContext): Iterator[T]
//可选的,指定优先位置,输入参数是split分片,输出结果是一组优先的节点位置
protected def getPreferredLocations(split: Partition): Seq[String] = Nil
//可选的,分区的方法,针对第4点,类似于mapreduce当中的Paritioner接口,控制key分到哪个reduce
@transient val partitioner: Option[Partitioner] = None
举个栗子
官网最基本的wordcount例子。虽简单,但是代表性很强。
val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
.filter(_.length >= 2)
.map(word => (word, 1))
.reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")
这里涉及到了下面几个RDD转换:
- textFile是一个HadoopRDD经过map后的MapPartitionsRDD,
- 经过flatMap后仍然是一个MapPartitionsRDD,
- 经过filter方法之后生成了一个新的MapPartitionsRDD,
- 经过map函数之后,继续是一个MapPartitionsRDD,
- 最后经过reduceByKey变成了ShuffleRDD。
在正式看源码之前,上一个图。 这个图是整个流程中RDD的转换过程,这里先不讲解,后面看源码的时候如果有疑惑再回过头来看,就明白了。