Spark 2.2.1 官方文档翻译 RDD编程指南（RDD Programming Guide）

最新推荐文章于 2022-01-12 16:47:34 发布

置顶左VJ

最新推荐文章于 2022-01-12 16:47:34 发布

阅读量1.5k

点赞数

分类专栏： spark spark翻译文章标签： spark 文档官方文档翻译 spark2-2-1

spark 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

spark翻译

2 篇文章 0 订阅

订阅专栏

http://spark.apache.org/docs/latest/rdd-programming-guide.html

概览

在上层运行中，每个Spark应用程序都包含一个Driver程序，该程序运行用户的main函数，并在集群上执行各种并行操作。

Spark提供的主要抽象是一个弹性分布式数据集（RDD），一个可以在群集节点上并行操作的离散分布的数据集。

RDD的来源有3种：
1. 文件
2. 集合（一种数据结构）
3. 其他RDD转换得来

用户也可以要求Spark将RDD保存在内存中，以便在并行操作中有效地重用它。最后，RDD可以自动从节点故障中恢复。

Spark中的第二个抽象是可用于并行操作的共享变量。默认情况下，Spark在不同节点上并行执行一组任务时，会将该函数中使用的每个变量的副本传送给每个任务。有时候，变量需要在任务之间，或任务与驱动程序之间共享。
Spark支持两种类型的共享变量：广播变量，可用于在所有节点上缓存内存中的值，以及累加器，常用于计算次数或某些数值的和。

本指南显示了Spark支持的各种语言中的每个功能。使用Spark-Shell可以更深刻理解本指南的内容。

通过编写应用程序使用Spark

链接到Spark

Spark 默认使用Scala 2.11，要在Scala中编写应用程序，您需要使用兼容的Scala版本（例如2.11.X）。

要编写Spark应用程序，您需要在Spark上添加Maven依赖项。 Spark可以通过Maven Central获得：

groupId = org.apache.spark
artifactId = spark-core_2.11
version = 2.2.1

另外，如果你想访问一个HDFS集群，你需要为你的HDFS版本添加对hadoop-client的依赖。

groupId = org.apache.hadoop
artifactId = hadoop-client
version = <your-hdfs-version>

最后，您需要将一些Spark类导入到您的程序中。添加以下行：

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

在Spark 1.3.0之前，您需要导入org.apache.spark.SparkContext._以启用基本的隐式转换

初始化Spark

Spark程序必须做的第一件事就是创建一个SparkContext对象，它告诉Spark如何访问一个集群。要创建一个SparkContext，首先需要构建一个包含有关应用程序信息的SparkConf对象。

每个JVM只能有一个SparkContext处于活动状态。在创建一个新的SparkContext之前，必须先停止（）活动的SparkContext。

val conf = new SparkConf().setAppName(appName).setMaster(master)
new SparkContext(conf)

appName参数是您的应用程序在集群UI上显示的名称。master是Spark，Mesos或YARN群集URL，或者是以本地模式运行的特殊“本地”字符串。实际上，在群集上运行时，您不希望在程序中硬编码master，而是使用spark-submit启动应用程序，并在那里接收它。但是，对于本地测试和单元测试，可以设置为“local”来运行进程中的Spark。

通过Spark-Shell使用Spark

在Spark shell中已经为您创建了一个SparkContext，名为sc。制作自己的SparkContext将不起作用。您可以使用–master参数来设置上下文所连接的host，并且可以通过将逗号分隔列表传递给–jars参数来将JAR添加到类路径中。您还可以通过向–packages参数提供逗号分隔的Maven坐标列表，将相关依赖（例如Spark包）添加到shell会话中。
例如，要在四个内核上运行bin / spark-shell，请使用：

$ ./bin/spark-shell --master local[4]

或者，也可以将code.jar添加到其类路径中，请使用：

$ ./bin/spark-shell --master local[4] --jars code.jar

要添加Maven依赖项：

$ ./bin/spark-shell --master local[4] --packages "org.example:example:0.1"

运行spark-shell –help 可以看到有关选项的完整列表。在底层，spark-shell调用spark-submit脚本。

弹性分布式数据集（RDD）

Spark的工作围绕弹性分布式数据集（RDD）的概念展开，RDD是可以并行操作的容错元素集合。
有两种方法可以创建RDD：

parallelizing Driver中的现有集合

parallelizing 集合

parallelizing 集合是通过调用驱动程序上的SparkContext的parallelize方法来创建的。集合的元素被复制以形成可以并行操作的分布式数据集。
例如，下面是如何创建一个包含数字1到5的并行化集合：

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

一旦创建，分布式数据集（distData）可以进行并行操作。例如，我们可以调用distData.reduce（（a，b）=> a + b）来合计数组的元素。我们稍后介绍更多分布式数据集上的操作。

并行集合的一个重要参数是要将数据集剪切成的分区数量。Spark将为群集的每个分区运行一个Task。通常情况下，您需要为群集中的每个CPU分配2-4个分区。通常情况下，Spark会尝试根据您的群集自动设置分区数量。但是，您也可以通过设置parallelize的第二个参数（例如sc.parallelize（data，10））进行手动设置。

外部数据集

Spark可以从Hadoop支持的任何存储源（包括本地文件系统，HDFS，Cassandra，HBase，Amazon S3等）创建分布式数据集.Spark支持文本文件，SequenceFile和任何其他Hadoop InputFormat。

文本文件的RDD可以使用SparkContext的textFile方法创建。这个方法接受一个文件的URI（机器上的一个本地路径，或者一个hdfs：//，s3n：//等URI），并把它作为一个行集合来读取。
这是一个示例调用：

scala> val distFile = sc.textFile("data.txt")
distFile: org.apache.spark.rdd.RDD[String] = data.txt MapPartitionsRDD[10] at textFile at <console>:26

一旦创建，distFile可以通过数据集操作进行操作。例如，我们可以使用map来获得所有行的大小，并进行Reduce操作获得总大小，如下所示：distFile.map（s => s.length）.reduce（（a，b）=> a + b）。

使用Spark读取文件的一些注意事项：

如果在本地文件系统上使用路径，则该文件也必须可以在Worker上的相同路径上访问。通过将文件复制到所有工作节点或使用网络共享文件系统。
Spark的所有基于文件的输入方法（包括textFile）都支持在目录，压缩文件和通配符上运行。例如，您可以使用textFile（“/ my / directory”），textFile（“/ my / directory / 。txt”）和textFile（“/ my / directory / 。gz”）。
textFile方法还使用可选的第二个参数来控制文件的分区数量。
默认情况下，Spark为文件的每个块创建一个分区（HDFS中的块默认为128MB），但是您也可以通过传递更大的值来请求更多的分区。请注意，您不能有比块更少的分区。

除了文本文件外，Spark的Scala API还支持其他几种数据格式：

SparkContext.wholeTextFiles让你读取一个包含多个小文本文件的目录，并将它们作为（文件名，内容）对返回。这与textFile相反，textFile将在每个文件中每行返回一个记录。分区由数据局部性决定，在某些情况下可能导致分区太少。对于这些情况，wholeTextFiles提供了一个可选的第二个参数来控制分区的最小数量。
对于SequenceFiles，使用SparkContext的sequenceFile [K，V]方法，其中K和V是文件中的键和值的类型。这些应该是Hadoop的Writable接口的子类，如IntWritable和Text。另外，Spark允许您为几个常见Writable指定类型;例如，sequenceFile [Int，String]将自动读取IntWritables和Texts。
对于其他Hadoop InputFormats，可以使用SparkContext.hadoopRDD方法，该方法采用任意的JobConf和输入格式类，key类和value类。将它们设置为您使用输入源进行Hadoop作业的方式相同。您还可以使用SparkContext.newAPIHadoopRDD for InputFormats基于“新”MapReduce API。
RDD.saveAsObjectFile和SparkContext.objectFile支持以包含序列化Java对象的简单格式保存RDD。虽然这不像Avro这样的专业格式，但它提供了一种简单的方法来保存任何RDD。

RDD操作

RDD支持两种类型的操作：transformations（从现有数据集创建新数据集）和actions（在数据集上运行计算后将值返回给驱动程序）。
例如，map是一个通过函数传递每个数据集元素的transformation，并返回一个代表结果的新RDD。另一方面，reduce是一个Action，它使用某个函数聚合RDD的所有元素，并将最终结果返回给驱动程序（还有一个并行reduceByKey函数返回一个分布式数据集）。

Spark中的所有transformations都是懒加载的，它们不会马上计算结果。他们只记住应用于某些基础数据集（例如文件）的Transformation。只有在Action需要将结果返回给驱动程序时才会执行计算。这种设计使Spark能够更高效地运行。例如，我们可以认识到通过map创建的数据集将被用于reduce，并且只将reduce的结果返回给驱动程序，而不是返回更大的数据集。

默认情况下，每次对其执行操作时，每个已转换的RDD都可能重新计算。但是，您也可以使用持久化（或缓存）方法将RDD保留在内存中，在这种情况下，Spark将该RDD，以便在下次查询时快速访问。还支持在磁盘上持久化RDD，或在多个节点上复制RDD。

基本操作

为了说明RDD基础知识，请考虑下面的简单程序：

val lines = sc.textFile("data.txt")
val lineLengths = lines.map(s => s.length)
val totalLength = lineLengths.reduce((a, b) => a + b)

第一行定义了来自外部文件的基本RDD。这个数据集不会被加载到内存中，或者作用于其他行上：仅仅是一个指向文件的指针。
第二行将lineLengths是对lines做一个Map转换的结果，得到每一行的长度。同样，lineLengths由于懒惰而没有立即计算。
最后，我们运行reduce，这是一个Action。在这个时候，Spark将计算分解为在不同机器上运行的任务，每台机器既运行其Map部分任务又运行局部reduce任务，只返回运行结果给Driver。

如果我们还想稍后再使用lineLength，我们可以对其进行保存：

lineLengths.persist()

在Reduce前，lineLengths RDD将会被保存在内存中。

将函数传递给Spark

Spark的API在很大程度上需要将Driver中的函数传递到集群上运行。有两种建议的方法来做到这一点：

匿名函数，可用于短小的代码。
全局单例对象中的静态方法。例如，您可以在定义MyFunctions Object，然后传递MyFunctions.func1给Spark的Api，如下所示：

object MyFunctions {
  def func1(s: String): String = { ... }
}

myRdd.map(MyFunctions.func1)

请注意，虽然也可以在类实例中传递对方法的引用（与单例对象相反），但这需要将包含该类的对象与方法一起发送。比如说：

class MyClass {
  def func1(s: String): String = { ... }
  def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(func1) }
}

在这里，如果我们创建一个新的MyClass实例，并在其上调用doStuff方法，那么其中的映射会引用该MyClass实例的func1方法，因此需要将整个MyClass 对象发送到集群。

以类似的方式，访问外部对象的字段将引用整个对象：

class MyClass {
  val field = "Hello"
  def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(x => field + x) }
}

相当于写了rdd.map（x => this.field + x），它引用了this。为了避免这个问题，最简单的方法是将字段复制到本地变量中，而不是从外部访问：

def doStuff(rdd: RDD[String]): RDD[String] = {
  val field_ = this.field
  rdd.map(x => field_ + x)
}

了解闭包

Spark的难点之一是在集群中执行代码时理解变量和方法的范围和生命周期。
修改范围之外的变量的RDD操作常常会给人们带来混乱。在下面的例子中，我们将看看使用foreach（）来增加计数器的代码，里面出现的问题在其他操作也会出现。

例子

考虑下面的RDD元素计算总和的操作，其执行是否发生在同一个JVM中，这可能会有不同的表现。一个常见的例子就是在本地模式下运行Spark（–master = local [n]）与将Spark应用程序部署到集群（例如，通过spark-submit to YARN）：

var counter = 0
var rdd = sc.parallelize(data)

// Wrong: Don't do this!!
rdd.foreach(x => counter += x)

println("Counter value: " + counter)

本地或集群模式

上面的代码的行为是未定义的，并可能无法正常工作。为了执行作业，Spark将RDD操作的处理分解为多个任务，每个任务由Executor执行。在执行之前，Spark计算任务的闭包。闭包是Executor在RDD上执行计算（在本例中为foreach（）））时必须可见的那些变量和方法。这个计算后的闭包将会序列化并发送给每个执行者。

发送给每个执行程序的闭包中的变量现在是一个副本，因此，当在foreach函数中引用counter 时，它不再是驱动程序节点上的counter 。驱动程序节点的内存中还有一个counter ，但Executor引用不到它！Executor只能看到序列化闭包的副本。因此，counter 的最终值仍然是零。

在本地模式下，在某些情况下，foreach函数实际上将在与驱动程序相同的JVM内执行，并将引用相同的原始计数器，并可能实际更新它。

为了确保在这种情况下明确的行为，应该使用Accumulators 。Spark中的Accumulators 专门用于提供一种在集群中的工作节点之间执行拆分时安全地更新变量的机制。本指南的“Accumulators ”部分更详细地讨论了这些内容。

一般来说，闭包 - 像循环或本地定义的方法这样的构造不应该被用来改变一些全局状态。Spark并没有定义或保证对从闭包外引用的对象的突变行为。这样做的一些代码可能在本地模式下工作，但这是偶然的，这样的代码不会按预期在分布式模式下运行。如果需要全局聚合，请使用Accumulators 。

打印RDD的元素

另一个常见的习惯是试图使用rdd.foreach（println）或rdd.map（println）打印RDD的元素。在单台机器上，这将生成预期的输出并打印所有RDD的元素。但是，在集群模式下，执行程序调用的stdout输出现在写入执行程序的stdout，而不是驱动程序的stdout，因此驱动程序上的stdout不会显示这些！要打印驱动程序中的所有元素，可以使用collect（）方法首先将RDD带到驱动程序节点：rdd.collect（）.foreach（println）。但是，这可能会导致驱动程序内存不足，因为collect（）会将整个RDD提取到Driver上;您只需要打印RDD的几个元素，一个更安全的方法是使用take（）：rdd.take（100）.foreach（println）。

使用Key-Value对

尽管大多数Spark操作在包含任何类型对象的RDD上工作，但是一些特殊操作仅在键 - 值对的RDD上可用。
最常见的是分布式的“shuffle”操作，如按key分组或聚合元素。

在Scala中，这些操作可以在包含Tuple2对象的RDD中自动使用（通过简单写入（a，b）创建的语言中的内置元组）。PairRDDFunctions类中提供了键值对操作，该类自动包装元组的RDD。

例如，以下代码使用键值对上的reduceByKey操作来计算文本中每行文本的出现次数：

val lines = sc.textFile("data.txt")
val pairs = lines.map(s => (s, 1))
val counts = pairs.reduceByKey((a, b) => a + b)

或者，我们也可以使用counts.sortByKey（）来按字母顺序对这些对进行排序，最后count.collect（）将它们作为一个对象数组返回给驱动程序。

注意：在使用自定义对象作为键值对操作中的键时，必须确保自定义equals（）方法附带有匹配的hashCode（）方法。有关完整的详细信息，请参阅Object.hashCode（）文档中的概述。

Transformations

下表列出了Spark支持的一些常见Transformations。有关详细信息，请参阅RDD API文档（Scala）和RDD函数doc（Scala）。

Transformation	描述
map(func)	通过函数func传递源RDD的每个元素来形成一个新的RDD。
filter(func)	通过选择func返回true的源的元素返回一个新的RDD
flatMap(func)	类似于map，但是每个输入项可以映射到0个或更多个输出项（所以func应该返回一个Seq而不是单个项）。
mapPartitions(func)	与map类似，但是在RDD的每个分区（块）上分别运行，所以当在T型RDD上运行时，func参数必须是Iterator => Iterator 类型。
mapPartitionsWithIndex(func)	类似于mapPartitions，但也提供了一个表示分区索引的整数值的func，所以在T类型的RDD上运行时，func的参数类型必须是（Int，Iterator ）=> Iterator 。
sample(withReplacement, fraction, seed)	使用给定的随机数种子对数据的一小部分进行采样，有或没有替换。
union(otherDataset)	并集，返回包含源数据集中的元素和参数的数据集的新数据集。
intersection(otherDataset)	交集，返回一个新的RDD，其中包含源数据集中的元素和参数的交集。
distinct([numTasks]))	返回包含源数据集的不同元素的新数据集，类似于Set数据结构
groupByKey（[numTasks]）	当在（K，V）对的数据集上调用时，返回（K，Iterable ）对的数据集。注意：如果您正在对每个键执行聚合（例如总和或平均），则使用reduceByKey或aggregateByKey将会产生更好的性能。注：默认情况下，输出中的并行级别取决于父RDD的分区数量。您可以传递一个可选的numTasks参数来设置不同数量的任务。
reduceByKey(func, [numTasks])	当调用（K，V）对的数据集时，返回（K，V）对的数据集，其中每个键的值使用给定的reduce函数func进行聚合，函数func必须是（V，V）=> V.就像在groupByKey中一样，reduce任务的数量可以通过可选的第二个参数来配置。
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])	当在（K，V）对的数据集上时，返回（K，U）对的数据集，其中使用给定的组合函数和中性的“零”值来汇总每个键的值。允许与输入值类型不同的聚合值类型，同时避免不必要的分配。reduce任务的数量可以通过可选的第二个参数来配置。
sortByKey（[ascending]，[numTasks]）	当在K实现Ordered的（K，V）对的数据集上调用时，按照ascending参数的指定，按照升序或降序返回按key排序的（K，V）对的数据集。
join(otherDataset, [numTasks])	当（K，V）和（K，W）类型的数据集被调用时，返回每个key的所有元素对的（K，（V，W））对的数据集。外连接通过leftOuterJoin，rightOuterJoin和fullOuterJoin来支持。
cogroup(otherDataset, [numTasks])	当（K，V）和（K，W）类型的数据集被调用时，返回（K，（Iterable ，Iterable ））元组的数据集。这个操作也被称为groupWith。
cartesian(otherDataset)	当调用类型T和U的数据集时，返回（T，U）对（所有元素对）的数据集。
pipe(command, [envVars])	通过shell命令管理RDD的每个分区，例如，一个Perl或bash脚本。RDD元素被写入进程的stdin，输出到stdout的行被作为字符串的RDD返回。
coalesce(numPartitions)	减少RDD中的分区数量为numPartitions。用于在过滤大型数据集后更高效地运行操作。
repartition(numPartitions)	随机调整RDD中的数据以创建更多或更少的分区并在其间进行平衡。这总是通过网络混洗所有数据。
repartitionAndSortWithinPartitions(partitioner)	根据给定的分区器对RDD进行重新分区，并在每个结果分区中按key排序。这比调用重新分区，然后在每个分区内进行排序更有效率，因为它可以将排序压入shuffle机制。

Actions

下表列出了Spark支持的一些常用操作。详细信息请参阅RDD API文档（Scala，Java，Python，R）并配对RDD函数doc（Scala，Java）。

Action	含义
reduce(func)	使用函数func（它接受两个参数并返回一个）聚合数据集的元素。该函数应该是可交换参数和关联的，以便它可以被正确地并行计算。
collect()	在driver 中将数据集的所有元素作为数组返回。在过滤器或其他操作返回足够小的数据子集之后，这通常很有用。
count()	返回数据集中元素的数量。
first()	返回数据集的第一个元素（类似于take（1））。
take(n)	用数据集的前n个元素返回一个数组。
takeSample(withReplacement, num, [seed])	返回一个数组的随机样本数组，有或没有替换，可以预先指定一个随机数发生器种子。
takeOrdered(n, [ordering])	使用自然顺序或自定义比较器返回RDD的前n个元素。
saveAsTextFile(path)	将数据集的元素作为文本文件（或文本文件集）写入本地文件系统，HDFS或任何其他Hadoop支持的文件系统的给定目录中。Spark将在每个元素上调用toString将其转换为文件中的一行文本。
saveAsSequenceFile(path) (Java and Scala)	将数据集的元素作为Hadoop SequenceFile写入本地文件系统，HDFS或任何其他Hadoop支持的文件系统的给定路径中。他可以在实现Hadoop的Writable接口的键值对的RDD上使用。在Scala中，它也可用于可隐式转换为Writable的类型
saveAsObjectFile(path) (Java and Scala)	使用Java序列化以简单的格式写入数据集的元素，然后可以使用SparkContext.objectFile（）加载。
countByKey()	仅适用于类型（K，V）的RDD。返回（K，Int）对的hashmap和每个键的计数。
foreach(func)	在数据集的每个元素上运行函数func。这通常用于副作用，如更新累加器或与外部存储系统交互。注意：修改foreach（）之外的累加器以外的变量可能会导致未定义的行为。请参阅了解更多细节。

Spark RDD API还公开了一些Action的异步版本，例如foreach的foreachAsync，它立即将FutureAction返回给调用者，而不是在完成动作时阻塞。

Shuffle 操作

Spark中的某些操作会触发一个称为shuffle的事件。shuffle是Spark重新分配数据的机制，以便在不同分区之间进行分组。这通常涉及在执行者和机器之间复制数据，使得shuffle成为复杂而昂贵的操作。

背景

为了理解shuffle过程中发生了什么，我们可以考虑reduceByKey操作的例子。
reduceByKey操作生成一个新的RDD，其中单个键的所有值都组合到一个元组中 - 键和对与该键相关的所有值执行reduce函数的结果。面临的挑战是，并不是所有的单个key的值都必须位于同一个分区，甚至是同一个机器上，但是它们必须位于同一地点才能计算出结果。

在Spark中，数据通常不是跨分区分布，而是在特定操作的必要位置。在计算过程中，单个任务将在单个分区上运行 - 因此，要组织单个reduceByKey reduce任务的所有数据执行，Spark需要对全部数据执行操作。它必须从所有分区中读取所有键的值，然后将各个分区上的值汇总在一起，以计算每个键的最终结果 - 这就是所谓的shuffle。

虽然新shuffle数据的每个分区中的元素集合是确定性的，分区本身的排序也是确定性的，但这些元素的排序并不是这样。如果一个人在shuffle之后需要有序数据，那么可以使用：

使用mapPartitions.如通过sorted对每个分区进行排序
repartitionAndSortWithinPartitions在同时进行重新分区的同时有效地对分区进行排序
sortBy 来制作全局排序的RDD

可能导致shuffle的操作包括repartition 操作（如repartition 和 coalesce），“像groupByKey和reduceByKey一样的ByKey操作（除计数），以及join 操作（如cogroup和join）。

对性能的影响

Shuffle操作是一个很昂贵的操作，因为它涉及到磁盘IO，序列化，网络传输。为了组织数据，Spark生成一组任务 - map任务来组织数据，以及一组reduce任务来聚合它。这个术语来自MapReduce，并不直接与Spark的map和reduce操作有关。

在内部，map任务的结果被保存在内存中，直到它们保存不下为止。然后，将这些根据key分区进行排序的结果写入单个文件。最后在reduce端，读取与之相关的排序数据块。

某些shuffle操作会消耗大量的堆内存，因为它们在传输数据前后会使用内存中的数据结构去组织记录。具体来说，reduceByKey和aggregateByKey在map上创建这些数据结构，’ByKey操作在reduce方面生成这些数据结构。当数据不适合存储在内存中时（即过大），Spark会将这些数据溢出到磁盘，这会导致额外的磁盘I / O开销和增加垃圾回收开销。

Shuffle也会在磁盘上生成大量的中间文件。从Spark 1.3开始，这些中间文件将被保留，直到相应的RDD不再使用并被垃圾回收。保留这些中间是为了在执行重新计算时不需要重新shuffle。如果应用程序保留对这些RDD的引用，或者GC不经常引入，垃圾回收可能会在很长一段时间后才会发生。这意味着长时间运行Spark作业可能会消耗大量的磁盘空间。在配置Spark时，临时存储目录由spark.local.dir配置参数指定。

shuffle行为可以通过调整各种配置参数来调整。详情请参阅“Spark配置指南”中的“Shuffle Behavior”部分。

RDD持久化

Spark中最重要的功能之一就是在内存中保留（或缓存）一个数据集。当持久化RDD时，每个节点存储它在内存中所计算的分区，并在该数据集上的其他操作（或从中派生的数据集）中重用它们。这可以使未来的行动更快（通常超过10倍）。缓存是迭代算法和快速交互式使用的关键工具。

您可以使用persist（）或cache（）方法将RDD标记为持久化。第一次在Action中计算时，它将被保存在节点的内存中。Spark的缓存是容错的 - 如果RDD的任何分区丢失，它将自动重新计算。

另外，RDD可以使用不同的存储级别进行存储，例如，您可以将数据集保存在磁盘上，将其保存在内存中，但作为序列化的Java对象（以节省空间），将其复制到节点上。这些级别通过传递一个StorageLevel对象来持久化来设置。cache（）默认StorageLevel.MEMORY_ONLY（将反序列化的对象存储在内存中）。
存储级别分别有：

Storage Level	Meaning
MEMORY_ONLY	将RDD作为反序列化的Java对象存储在JVM中。如果RDD不适合存储在内存，某些分区将不会被缓存，并且每次需要时都会重新进行计算。这是默认级别。
MEMORY_AND_DISK	将RDD作为反序列化的Java对象存储在JVM中。如果RDD在内存存不下，会存储剩余的分区到磁盘上，并在需要时从中读取。
MEMORY_ONLY_SER	将RDD存储为序列化的Java对象（每个分区一个字节的数组）。这通常比反序列化的对象更节省空间，特别是在使用快速序列化器的情况下，但需要消耗更多的CPU资源。
MEMORY_AND_DISK_SER	与MEMORY_ONLY_SER类似，但是将不适合内存的分区溢出到磁盘，而不是每次需要时重新计算它们。
DISK_ONLY	仅存储在磁盘上
MEMORY_ONLY_2, MEMORY_AND_DISK_2, etc.	和以上类似，但存储两份。
OFF_HEAP (experimental)	存储在堆外内存。需要开启该功能才能使用

选择哪个存储级别？

Spark的存储级别旨在提供内存使用和CPU效率之间的不同折衷。我们建议通过以下过程来选择一个：

如果您的RDD适合默认的存储级别（MEMORY_ONLY），请以这种方式存储它们。这是CPU效率最高的选项，允许RDD上的操作尽可能快地运行。
如果不能以第一种方式存储，尝试使用MEMORY_ONLY_SER并选择一个快速序列化库来使对象更加节省内存空间，但是访问速度仍然相当快。
除非计算你的数据集的函数是昂贵的，否则请不要溢出到磁盘上。除非它们会过滤大量的数据，否则，重新计算分区可能与从磁盘读取分区一样快。
如果要快速恢复故障，请使用复制策略的存储级别。所有的存储级别通过重新计算丢失的数据来提供完整的容错能力，但是复制策略的数据可以让您继续在RDD上运行任务，而无需等待重新计算丢失的分区。

移除数据

Spark会自动监视每个节点上的高速缓存使用情况，并以最近最少使用（LRU）方式删除旧的数据分区。如果您想要手动删除RDD，而不是等待其从缓存中删除，请使用RDD.unpersist（）方法。

共享变量

通常，在远程集群节点上执行传递给Spark操作（如map或reduce）的函数时，它将在函数中使用的所有变量的副本上运行。这些变量被复制到每台机器上，远程机器上的变量没有更新到驱动程序。支持通用的、可读写的共享变量将是低效的，但是，Spark为两种常见使用模式提供了两种有限类型的共享变量：广播变量和累加器。

广播变量

广播变量允许程序员在每台机器上保存一个只读变量，而不是用任务发送一个只读变量的副本。例如，可以使用它们以有效的方式为每个节点提供大型输入数据集的副本。Spark还尝试使用高效的广播算法来分发广播变量，以降低通信成本。

Spark Action是通过一系列Stage执行的，Stage由分散的shuffle操作分开。Spark会自动广播每个阶段中任务所需的通用数据。以这种方式广播的数据以序列化形式缓存，并在运行每个任务之前反序列化。这意味着只有跨多个阶段的任务需要相同的数据或以反序列化的形式缓存数据时，显式创建广播变量才是有用的。

广播变量是通过调用SparkContext.broadcast（v）从变量v创建的。广播变量是v的一个封装，它的值可以通过调用value方法来访问。下面的代码展示如何使用：

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

scala> broadcastVar.value
res0: Array[Int] = Array(1, 2, 3)

在创建广播变量之后，应该在群集上运行的任何函数中使用值而不是值v，以便v不会多次传送到节点。另外，对象v在广播后不应该被修改，以确保所有节点获得相同的广播变量值

累加器

累加器是仅通过关联和交换操作“添加”的变量，因此可以有效地支持并行操作。它们可以用来实现计数器（如在MapReduce中）或者和计算。
Spark本身支持数字类型的累加器，程序员可以添加其对新类型的支持。

作为用户，您可以创建已命名或未命名的累加器。如下图所示，一个已命名的累加器（在这种情况下计数器）将显示在修改该累加器的阶段的Web UI中。Spark在“任务”表中显示每次任务修改的累加器的值。
这里写图片描述
跟踪用户界面中的累加器对于理解运行阶段的进度非常有用（注意：Python尚不支持）。

可以通过调用SparkContext.longAccumulator（）或SparkContext.doubleAccumulator（）来分别累积Long或Double类型的值来创建数字累加器。在群集上运行的任务可以使用add方法添加它。但是，他们无法读它的值。只有Driver可以使用其value方法读取累加器的值。

下面的代码显示了一个累加器被用来计算一个数组的和：

scala> val accum = sc.longAccumulator("My Accumulator")
accum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 0, name: Some(My Accumulator), value: 0)

scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum.add(x))
...
10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s

scala> accum.value
res2: Long = 10

虽然这段代码使用了对Long类型的累加器的内置支持，程序员也可以通过继承AccumulatorV2来创建自己的类型。
AccumulatorV2抽象类有几个方法必须重写：reset方法重置累加器为零，add方法用于向累加器中添加另一个值，merge方法合并另一个相同类型的累加器到这个累加器中。其他必须被覆盖的方法包含在API文档中。
例如，假设我们有一个表示数学向量的MyVector类，我们可以这样写：

class VectorAccumulatorV2 extends AccumulatorV2[MyVector, MyVector] {

  private val myVector: MyVector = MyVector.createZeroVector

  def reset(): Unit = {
    myVector.reset()
  }

  def add(v: MyVector): Unit = {
    myVector.add(v)
  }
  ...
}

// Then, create an Accumulator of this type:
val myVectorAcc = new VectorAccumulatorV2
// Then, register it into spark context:
sc.register(myVectorAcc, "MyVectorAcc1")

请注意，当程序员定义自己的AccumulatorV2类型时，结果数据类型可能与添加元素的数据类型不同。

对于仅在Action内执行的累加器更新，Spark保证每个任务对累加器的更新只会应用一次，即重新启动的任务不会更新该值。
在transformations中，用户应该意识到，如果任务或作业阶段被重新执行，每个任务的更新可能会被应用多次。

累加器不会改变Spark的懒惰加载模型。如果它们在RDD上的操作中被更新，则其值仅在RDD作为动作的一部分计算之后才被更新。因此，在像map（）这样的惰性转换中进行累加器更新并不能保证执行。下面的代码片段演示了这个属性：

val accum = sc.longAccumulator
data.map { x => accum.add(x); x }
// Here, accum is still 0 because no actions have caused the map operation to be computed.

单元测试

Spark对任何流行的单元测试框架的单元测试都很友好。只需在主URL设置为本地的情况下在测试中创建一个SparkContext，运行您的操作，然后调用SparkContext.stop（）将其关闭。确保在最后调用SparkContext.stop（），因为Spark不支持在同一个程序中同时运行两个SparkContext。