Spark RDD弹性分布式数据集

最新推荐文章于 2023-04-20 22:00:00 发布

一米八多的瑞兹

最新推荐文章于 2023-04-20 22:00:00 发布

阅读量261

点赞数 1

分类专栏： Spark 文章标签：分布式大数据数据结构 hadoop python

本文链接：https://blog.csdn.net/weixin_46370858/article/details/114693636

版权

Spark 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

✎ 学习目标

理解RDD的五大特征和Spark的任务调度
掌握RDD的创建方式
了解RDD的依赖关系以及持久化和容错机制
掌握RDD的转换算子和行动算子操作

传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。
RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管道化，从而避免了中间结果的I/O操作，提高数据处理的速度和性能。

RDD的五大特征

RDD（Resilient Distributed Dataset），即弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。每个RDD都具有五大特征，具体如下。

分区列表
每个分区都有一个计算函数
依赖于其他RDD
（Key，Value）数据类型的RDD分区器
每个分区都有一个优先位置列表

从文件系统加载数据创建RDD

Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD，包括本地文件系统和HDFS等文件系统。我们通过Spark中的SparkContext对象调用textFile()方法加载数据创建RDD。
1、从文件系统加载数据创建RDD

scala> val test=sc.textFile("file:///export/data/test.txt")
test: org.apache.spark.rdd.RDD[String]=file:///export/data/test.txt MapPartitionsRDD[1] at textFile  at <console>:24

2、从HDFS中加载数据创建RDD

scala> val testRDD=sc.textFile("/data/test.txt")
testRDD:org.apache.spark.rdd.RDD[String]=/data/test.txt MapPartitionsRDD[1] at textFile at  <console>:24

通过并行集合创建RDD

Spark可以通过并行集合创建RDD。即从一个已经存在的集合、数组上，通过SparkContext对象调用parallelize()方法创建RDD。

scala> val array=Array(1,2,3,4,5)
array: Array[Int]=Array(1,2,3,4,5)
scala> val arrRDD=sc.parallelize(array)
arrRDD: org.apache.spark.rdd.RDD[Int]=ParallelcollectionRDD[6] at parallelize at <console>:26

Spark用Scala语言实现了RDD的API，程序开发者可以通过调用API对RDD进行操作处理。RDD经过一系列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使用，直到最后一个RDD经过“行动”操作才会被真正计算处理，并输出到外部数据源中，若是中间的数据结果需要复用，则可以进行缓存处理，将数据缓存到内存中。在这里插入图片描述

行动算子

行动算子主要是将在数据集上运行计算后的数值返回到驱动程序，从而触发真正的计算。下面，通过一张表来列举一些常用行动算子操作的API，具体如下。
在这里插入图片描述

编写WordCount词频统计

在Linux本地系统的/export/data目录下，有一个test.txt文件，文件里有多行文本，每行文本都是由2个单词构成，且单词之间都是用空格分隔。现在，我们需要通过RDD统计每个单词出现的次数（即词频），具体操作过程如下。
在这里插入图片描述

RDD分区的作用

在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上，但是可以确保相同的键出现在同一个分区上。

各种模式下的默认分区数目

RDD的分区原则是分区的个数尽量等于集群中的CPU核心（Core）数目。对于不同的Spark部署模式而言，都可以通过设置spark.default.parallelism这个参数值来配置默认的分区数目。
Local模式：默认为本地机器的CPU数目，若设置了local[N]，则默认为N
Standalone/yarn模式：在“集群中所有CPU核数总和”和“2”这两者中取较大值作为默认值
Mesos模式：默认的分区数是8。

RDD的分区方式

Spark框架为RDD提供了两种分区方式，分别是哈希分区（HashPartitioner）和范围分区（RangePartitioner）。其中，哈希分区是根据哈希值进行分区；范围分区是将一定范围的数据映射到一个分区中。这两种分区方式已经可以满足大多数应用场景的需求。与此同时，Spark也支持自定义分区方式，即通过一个自定义的Partitioner对象来控制RDD的分区，从而进一步减少通信开销。

依赖关系的种类

窄依赖
窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。
窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。
一个父RDD的一个分区不可能对应一个子RDD的多个分区。
为了便于理解，我们通常把窄依赖形象的比喻为独生子女。
RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；而RDD做join算子操作（对输入进行协同划分）时，是属于窄依赖表现的第二类。输入协同划分是指多个父RDD的某一个分区的所有Key，被划分到子RDD的同一分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，只需要重新对父RDD中对应的分区做算子操作即可恢复数据。在这里插入图片描述
宽依赖
宽依赖是指子RDD的每一个分区都会使用所有父RDD的所有分区或多个分区，即OneToManyDependecies。为了便于理解，我们通常把宽依赖形象的比喻为超生。
父RDD做groupByKey和join（输入未协同划分）算子操作时，子RDD的每一个分区都会依赖于所有父RDD的所有分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，则需要重新对父RDD中的所有分区进行算子操作才能恢复数据。

RDD机制

持久化机制
在Spark中，RDD是采用惰性求值，即每次调用行动算子操作，都会从头开始计算，这对迭代计算来说代价很大，因为迭代计算经常需要多次重复的使用同一组数据集，所以，为了避免重复计算的开销，让Spark对数据集进行持久化操作。
RDD的持久化操作有两种方法，分别是cache()方法和persist()方法。
persist()方法的存储级别是通过StorageLevel对象设置的。
cache()方法的存储级别是使用默认的存储级别（即StorageLevel.MEMORY_ONLY）。
容错机制
当Spark集群中的某一个节点由于宕机导致数据丢失，则可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式，分别是血统（Lineage）方式和设置检查点（checkpoint）方式。
血统方式Lineage:根据RDD之间依赖关系对丢失数据的RDD进行数据恢复。若丢失数据的子RDD进行窄依赖运算，则只需要把丢失数据的父RDD的对应分区进行重新计算，不依赖其他节点，并且在计算过程中不存在冗余计算；若丢失数据的RDD进行宽依赖运算，则需要父RDD所有分区都要进行从头到尾计算，计算过程中存在冗余计算。
设置检查点（checkPoint）方式:本质是将RDD写入磁盘存储。当RDD进行宽依赖运算时，只要在中间阶段设置一个检查点进行容错，即Spark中的sparkContext调用setCheckpoint()方法，设置容错文件系统目录作为检查点checkpoint，将checkpoint的数据写入之前设置的容错文件系统中进行持久化存储，若后面有节点宕机导致分区数据丢失，则以从做检查点的RDD开始重新计算，不需要从头到尾的计算，从而减少开销。

Spark的任务调度

DAG概念:DAG（Directed Acyclic Graph）叫做有向无环图，Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。DAG是一种非常重要的图论数据结构。如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。“4→6→1→2”是一条路径，“4→6→5”也是一条路径，并且图中不存在从顶点经过若干条边后能回到该点。在这里插入图片描述
根据RDD之间依赖关系的不同可将DAG划分成不同的Stage(调度阶段)。对窄依赖来说，RDD分区的转换处理是在一个线程里完成，所以窄依赖会被Spark划分到同一个Stage中；而对宽依赖来说，由于有Shuffle存在，所以只能在父RDD处理完成后，下一个Stage才能开始接下来的计算，因此宽依赖是划分Stage的依据，当RDD进行转换操作，遇到宽依赖类型的转换操作时，就划为一个Stage。
在这里插入图片描述
实例讲解
A、C、E是三个RDD的实例
当A做groupByKey转换操作生成B时，由于groupByKey转换操作属于宽依赖类型，所以就把A划分为一个Stage，如Stage1；
当C做map转换操作生成D， D与E做union转换操作生成F。由于map和union转换操作都属于窄依赖类型，因此不进行Stage的划分，而是将C、D、E、F加入到同一个Stage中；
当F与B进行join转换操作时，由于这时的join操作是非协同划分，所以属于宽依赖，因此会划分为一个Stage，如Stage2；
剩下的B和G被划分为一个Stage，如Stage3。
RDD在Spark中的运行流程
Spark的任务调度流程，即RDD在Spark中的运行流程分为RDD Objects、DAGScheduler、TaskScheduler以及Worker四个部分。
在这里插入图片描述

RDD Objects：当RDD对象创建后，SparkContext会根据RDD对象构建DAG有向无环图，然后将Task提交给DAGScheduler。
DAGScheduler：将作业的DAG划分成不同Stage，每个Stage都是TaskSet任务集合，并以TaskSet为单位提交给TaskScheduler。
TaskScheduler：通过TaskSetManager管理Task，并通过集群中的资源管理器把Task发给集群中Worker的Executor。
Worker：Spark集群中的Worker接收到Task后，把Task运行在Executor进程中，一个进程中可以有多个线程在工作，从而可以处理多个数据分区。

一米八多的瑞兹

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark RDD弹性分布式数据集

✎ 学习目标理解RDD的五大特征和Spark的任务调度掌握RDD的创建方式了解RDD的依赖关系以及持久化和容错机制掌握RDD的转换算子和行动算子操作传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管道
复制链接

扫一扫