spark2原理分析-RDD的实现框架分析

最新推荐文章于 2024-07-04 07:15:00 发布

一铭

最新推荐文章于 2024-07-04 07:15:00 发布

阅读量364

点赞数

分类专栏： spark 源码分析-深入浅出Spark原理文章标签： spark rdd 实现框架分析源码分析

本文链接：https://blog.csdn.net/zg_hover/article/details/83063525

版权

spark 同时被 2 个专栏收录

68 篇文章 3 订阅

订阅专栏

源码分析-深入浅出Spark原理

46 篇文章 11 订阅

订阅专栏

概述

本文分析RDD的实现框架，并简要介绍各种类型RDD的实现原理。

RDD实现的特性

在spark2中，每个RDD都具有5个主要的特性：

一个分区列表
计算每个分区的函数
依赖RDD(父RDD)的列表
可选：对于key-value RDD的分区类
可选：在分布式文件系统上(例如：hdfs,hbase等)，计算每个分区的最佳位置

RDD的实现框架

在Spark中有多种类型的RDD。Spark定义了一个抽象类：

abstract class RDD[T: ClassTag](
    @transient private var _sc: SparkContext,
    @transient private var deps: Seq[Dependency[_]]
  ) extends Serializable with Logging

该抽象类定义了两类RDD的基本函数：

transformations(转换函数)
actions(行动函数)

还定义了一些没有实现的函数和变量，这些函数是每类RDD必须实现的，是RDD的实现合约。它们主要有：

abstract class RDD[T: ClassTag] {
    def compute(split: Partition, context: TaskContext): Iterator[T]
    def getPartitions: Array[Partition]
    def getDependencies: Seq[Dependency[_]]
    def getPreferredLocations(split: Partition): Seq[String] = Nil
    val partitioner: Option[Partitioner] = None
}

方法名	说明
compute	子类需要实现该函数。用来计算一个给定的分区。
getPartitions	返回该RDD的分区的集合。
getDependencies	返回RDD依赖的父RDD及关系。
getPreferredLocations	定义RDD分区保存的首选位置。
partitioner	说明RDD的分区类(用什么方法进行分区)