【Spark源码】RDD分区&RDD分区数据分配

最新推荐文章于 2023-06-06 08:41:58 发布

九筒-

最新推荐文章于 2023-06-06 08:41:58 发布

阅读量248

点赞数 1

分类专栏：源码分析大数据文章标签： spark 大数据 scala 源码

本文链接：https://blog.csdn.net/weixin_44343282/article/details/116541180

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

源码分析

8 篇文章 1 订阅

订阅专栏

RDD分区

创建RDD时自定义分区数量
根据计算机Core个数确定默认分区数量

核心代码

override def defaultParallelism(): Int =
    scheduler.conf.getInt("spark.default.parallelism", totalCores)

首选SparkConf配置的spark.default.parallelism分区数量
如果没有配置，则采用计算机的核心数量totalCores作为分区数量

分析源码步骤

程序- -分区源码入口- -.makeRDD()
默认并行度defaultParallelism
默认并行度defaultParallelism
默认并行度defaultParallelism
此时defaultParallelism位于TaskScheduler.scala中，次未见类型为Trait类型，没有函数体，在Intellij IDEA中，按快捷键ctrl+H查看文件继承层级关系，查看TaskSchedulerImpl.scala文件
默认并行度defaultParallelism
同上，ctrl+H查看层级关系，查看LocalSchedulerBackend.scala文件
默认并行度defaultParallelism，核心代码
conf为SparkConf环境配置变量

RDD分区数据分配

根据数据类型（Range or 其他）采用不同的数据划分策略，本文以List类型数据为例
数据分配方式计算，与切片数量，数据长度有关

核心代码

def positions(length:Long,numSlices:Int):Iterator[(Int,Int)]={
		//0~切片个数，进行遍历
		(0 until numSlices).iterator.map{i=>
		val start=((i*length)/numSlices).toInt
		val end=(((i+1)*length)/numSlices).toInt
		(start,end)
	}
}

例：
数据：4， 3， 2，1， 0
切片数量：3
调用position方法

length = 5 //数据长度
numSlice = 3 //分区数量
0 until numSlices => 0, 1, 2 //分区索引

if i=0
start = 0
end = 1
=> 切片1的数据（4）

if i=1
start = 1 * 5 / 3 = 1
end = 2 * 5 / 3 = 3
=>切片2的数据（3, 2）

if i=2
start = 2 * 5 / 3 = 3
end = 3 * 5 / 3 = 5
=>切片3的数据（1，0）

分析源码步骤

程序入口- - 数据分配源码 - - makeRDD()
调用parallelize函数
声明ParallelCollectionRDD类对象
ParallelCollectionRDD类中重写getPartitions方法，调用slice方法
划分数据的核心方法ParallelCollectionRDD（函数分成了两张图片）
- 传入参数：序列seq，切片个数numSlices
- 先判断numSlices >= 1
- 定义划分position方法，划分出起始位置和结束位置start和end
- seq进行模式匹配
- case r 和 nr均为匹配Range（范围）类型的数据
- 其他数据类型转换为数组进行范围划分

九筒-

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【Spark源码】RDD分区&RDD分区数据分配

RDD分区创建RDD时自定义分区数量根据计算机Core个数确定默认分区数量核心代码override def defaultParallelism(): Int = scheduler.conf.getInt("spark.default.parallelism", totalCores)首选SparkConf配置的spark.default.parallelism分区数量如果没有配置，则采用计算机的核心数量totalCores作为分区数量分析源码步骤程序- -分区源码入口
复制链接

扫一扫

专栏目录