Intro
rdd是怎么做分区切分的,即怎么把数据存放到各个分区中,直接看代码。
Code
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("local[1]").getOrCreate()
val dataRDD = spark.sparkContext.makeRDD(List(0,1, 2, 3, 4,5,), 4)
dataRDD.foreachPartition(part => {
println("---- partitions -----")
println(part.toArray.mkString(","))
})
---- partitions -----
0
---- partitions -----
1,2
---- partitions -----
3
---- partitions -----
4,5
程序执行结果如上,发现分组有些奇怪,两个元素的分区,不是在最前,也不是在最后。下面看下分区逻辑。
分区逻辑
def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
(0 until numSlices).iterator.map { i =>
val start = ((i * length) / numSlices).toInt
val end = (((i + 1) * length) / numSlices).toInt
(start, end)
}
}
核心代码如上,具体逻辑:
- length:rdd长度,numSlice:分区数
- 按照公式计算生产numSlice个元组
- 几个元组前后相连,相当于把length切分成各个分区
打个比方,方便理解,有一根线段,长为length,切(numSlice-1)次,每次切分点为((i * length) / numSlices).toInt
上例中,length=6,numSlice=4:
- 第一刀,切在floor(1*6/4)=1处,索引所于[0,1)的在一个分区,即0
- 第二刀,切在floor(2*6/4)=3处,索引所于[1,3)的在一个分区 ,即1、2
- 第三刀,切在floor(3*6/4)=4处,索引所于[3,4)的在一个分区 ,即3
- 第四刀,切在floor(4*6/4)=6处,索引所于[4,6)的在一个分区 ,即4、5
2021-11-12 于南京市江宁区九龙湖