Spark源码解析：RDD

最新推荐文章于 2024-01-28 18:05:27 发布

木东居士

最新推荐文章于 2024-01-28 18:05:27 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/zhaodedong/article/details/73649899

版权

本文深入解析Spark中的核心概念RDD，介绍了RDD的基本概念、五个特征，包括分片、计算函数、依赖、分区器和优先计算位置。通过源码分析，详细探讨了RDD的窄依赖和宽依赖，并以WordCount为例，展示了RDD转换过程中的map、flatMap、filter和reduceByKey等操作。文章以HadoopRDD和MapPartitionsRDD的实现为切入点，逐步揭示RDD的内部工作机制。

摘要由CSDN通过智能技术生成

0x00 前言

本篇是Spark源码解析的第一篇，主要通过源码分析Spark设计中最重要的一个概念——RDD。

本文会主要讲解RDD的主要概念和源码中的设计，并通过一个例子详细地讲解RDD是如何生成的和转换的。

文章结构

先回顾一下RDD的一些特征以及几个基本概念
RDD源码分析，整体的源码设计
举一个例子，通过这个例子来一步步地追踪源码。

0x01 概念

什么是RDD

RDD（Resilient Distributed Dataset）：弹性分布式数据集。

我们可以先大致这样理解RDD：RDD是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来处理这些数据。

注意：RDD作为数据结构，本质上是一个只读的分区记录集合。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。

RDD的5个特征

下面是源码中对RDD类的注释：

Internally, each RDD is characterized by five main properties:

A list of partitions

A function for computing each split

A list of dependencies on other RDDs

Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

也是说RDD会有5个基本特征:

有一个分片列表。就是能被切分，和hadoop一样的，能够切分的数据才能并行计算。
有一个函数计算每一个分片，这里指的是下面会提到的compute函数。
对其他的RDD的依赖列表，依赖还具体分为宽依赖和窄依赖。
可选：key-value型的RDD是根据哈希来分区的，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce。
可选：每一个分片的优先计算位置（preferred locations），比如HDFS的block的所在位置应该是优先计算的位置。

宽窄依赖

这里有必要稍微解释一下窄依赖（narrow dependency）和宽依赖（wide dependency）。

如果RDD的每个分区最多只能被一个Child RDD的一个分区使用，则称之为narrow dependency；若多个Child RDD分区都可以依赖，则称之为wide dependency。不同的操作依据其特性，可能会产生不同的依赖。

例如map操作会产生narrow dependency，而join操作则产生wide dependency。

如图，两种依赖的区别：

0x02 源码分析

RDD的5个特征会对应到源码中的4个方法和一个属性。

RDD.scala是一个总的抽象，不同的子类会对下面的方法进行定制化的实现。比如compute方法，不同的子类在实现的时候是不同的。下面会对每一块单独分析。

  //该方法只会被调用一次。由子类实现，返回这个RDD的所有partition。
  protected def getPartitions: Array[Partition]
  //该方法只会被调用一次。计算该RDD和父RDD的依赖关系
  protected def getDependencies: Seq[Dependency[_]] = deps
  // 对分区进行计算，返回一个可遍历的结果
  def compute(split: Partition, context: TaskContext): Iterator[T]
  //可选的，指定优先位置，输入参数是split分片，输出结果是一组优先的节点位置
  protected def getPreferredLocations(split: Partition): Seq[String] = Nil
  //可选的，分区的方法，针对第4点，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce
  @transient val partitioner: Option[Partitioner] = None

举个栗子

官网最基本的wordcount例子。虽简单，但是代表性很强。

val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
                 .filter(_.length >= 2)
                 .map(word => (word, 1))
                 .reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")