一、RRD分区
(一)RDD分区概念
RDD是一个大的数据集合,该集合被划分成多个子集合分布到了不同的节点上,而每一个子集合就称为分区(Partition)。因此,也可以说,RDD是由若干个分区组成的。
(二)RDD分区作用
在分布式程序中,网络通信的开销是很大的,因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能,Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区,系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上,但是可以确保相同的键出现在同一个分区上。
二、RDD分区数量
(一)RDD分区原则
RDD各个分区中的数据可以并行计算,因此分区的数量决定了并行计算的粒度。Spark会给每一个分区分配一个单独的Task任务对其进行计算,因此并行Task的数量是由分区的数量决定的。RDD分区的一个分区原则是使得分区的数量尽量等于集群中CPU核心数量。
(二)影响分区的因素
RDD的创建有两种方式:一种是使用parallelize()或makeRDD()方法从对象集合创建;另一种是使用textFile()方法从外部存储系统创建。RDD分区的数量与RDD的创建方式以及Spark集群的运行模式有关。
(三)使用parallelize()方法创建RDD时的分区数量
1、指定分区数量
使用parallelize()方法创建RDD时,可以传入第二个参数,指定分区数量。
注意:采用本地模式启动Spark Shell(在master节点上)
分区的数量应尽量等于集群中所有CPU的核心总数,以便可以最大程度发挥CPU的性能。
利用mapPartitionsWithIndex()函数实现带分区索引的映射
第1个分区完成了3个元素的映射,第2个分区完成了3个元素的映射,第3个分区完成了4个元素的映射
2、默认分区数量
若不指定分区数量,则默认分区数量为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism的值。若没有配置该参数,则Spark会根据集群的运行模式自动确定分区数量。
如果是本地模式,默认分区数量就等于本机CPU核心总数,这样每个CPU核心处理一个分区的计算任务,可以最大程度发挥CPU的性能。
如果是Spark Standalone或Spark On YARN模式,默认分区数量就取集群中所有CPU的核心总数与2中的较大值,即最少分区数为2。
我们采用的是Standalone模式的Spark集群
先用spark-shell本地模式启动
由此可见,本地机器master的CPU核数为4。
以集群模式启动Spark Shell
注意:Spark集群是一个Master(master虚拟机)和两个Worker(slave1和slave2虚拟机)
默认分区数是8。为什么是8呢?集群两个工作节点(slave1和slave2)的CPU核数总和是4 + 4 = 8
(四)使用textFile()方法创建RDD时的分区数量
textFile()方法通常用于读取HDFS中的文本文件,使用该方法创建RDD时,Spark会对文件进行分片操作(类似于MapReduce的分片,实际上调用的是MapReduce的分片接口),分片操作完成后,每个分区将存储一个分片的数据,因此分区的数量等于分片的数量。
1、指定最小分区数量
使用textFile()方法创建RDD时可以传入第二个参数指定最小分区数量。最小分区数量只是期望的数量,Spark会根据实际文件大小、文件块(Block)大小等情况确定最终分区数量。
在HDFS中有一个文件/park/test.txt,读取该文件,并指定最小分区数量为5,但是实际分区数量是6。
针对/park/test.txt文件,实际分区数比指定分区数大1,但是换个文件,情况就未必如此。
2、默认最小分区数量
若不指定最小分区数量,则Spark将采用默认规则计算默认最小分区数量。
以集群启动Spark Shell,默认分区数是2
从上述代码中可以看出,默认最小分区数取默认并行度与2中的较小值;而默认并行度则是parallelize()方法的默认分区数。
四、自定义分区器
(一)提出问题
在有些情况下,使用Spark自带的分区器满足不了特定的需求。
例如,某学生有以下3科三个月的月考成绩数据。
现需要将每一科成绩单独分配到一个分区中,然后将3科成绩输出到HDFS的指定目录(每个分区对应一个结果文件),此时就需要对数据进行自定义分区。
(二)解决问题
1、准备数据文件
在master虚拟机的/home目录里创建marks.txt
将数据文件上传到HDFS指定目录
2、新建科目分区器
创建net.huawei.rdd.day04包,在包里创建SubjectPartitioner类
package net.huawei.rdd.day04
import org.apache.spark.Partitioner
class SubjectPartitioner(partitions: Int) extends Partitioner {
/**
* @return 分区数量
*/
override def numPartitions: Int = partitions
/**
* @param key(科目)
* @return 分区索引
*/
override def getPartition(key: Any): Int = {
val partitionIndex = key.toString match {
case "chinese" => 0
case "math" => 1
case "english" => 2
}
partitionIndex
}
}
3、测试科目分区器
调用RDD的partitionBy()方法传入科目分区器类SubjectPartitioner的实例,可以对RDD按照自定义规则进行重新分区。
在net.huawei.rdd.day04包里创建TestSubjectPartitioner单例对象
package net.huawei.rdd.day04
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object TestSubjectPartitioner {
def main(args: Array[String]): Unit = {
// 创建Spark配置对象
val conf = new SparkConf()
.setAppName("TestSubjectPartitioner") // 设置应用名称
.setMaster("local[*]") // 设置主节点位置(本地调试)
// 基于Spark配置对象创建Spark容器
val sc = new SparkContext(conf)
// 读取HDFS文件,生成RDD
val lines = sc.textFile("hdfs://master:9000/partition/input/marks.txt")
// 将每行数据映射成(科目,成绩)二元组
val data: RDD[(String, Int)] = lines.map(line => {
val fields = line.split(" ")
(fields(0), fields(1).toInt) // (科目,成绩)
})
// 将数据按科目分区器重新分区
val partitionData = data.partitionBy(new SubjectPartitioner(3))
// 在控制台输出分区数据
partitionData.collect.foreach(println)
// 保存分区数据到HDFS指定目录
partitionData.saveAsTextFile("hdfs://master:9000/partition/output")
}
}
运行程序,查看结果
查看HDFS的结果文件
如果传入的分区数不是3,会出现什么状况?
删除输出目录
运行程序,查看控制台输出结果
查看HDFS上的结果文件
删除输出目录,修改分区数为2,再运行程序,查看控制台结果