Spark004-rdd分区逻辑

Intro

rdd是怎么做分区切分的,即怎么把数据存放到各个分区中,直接看代码。

Code

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("local[1]").getOrCreate()
val dataRDD = spark.sparkContext.makeRDD(List(0,1, 2, 3, 4,5,), 4)
dataRDD.foreachPartition(part => {
      println("---- partitions -----")
      println(part.toArray.mkString(","))
    })
---- partitions -----
0
---- partitions -----
1,2
---- partitions -----
3
---- partitions -----
4,5

程序执行结果如上,发现分组有些奇怪,两个元素的分区,不是在最前,也不是在最后。下面看下分区逻辑。

分区逻辑

def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
      (0 until numSlices).iterator.map { i =>
        val start = ((i * length) / numSlices).toInt
        val end = (((i + 1) * length) / numSlices).toInt
        (start, end)
      }
    }

核心代码如上,具体逻辑:

  • length:rdd长度,numSlice:分区数
  • 按照公式计算生产numSlice个元组
  • 几个元组前后相连,相当于把length切分成各个分区

打个比方,方便理解,有一根线段,长为length,切(numSlice-1)次,每次切分点为((i * length) / numSlices).toInt
上例中,length=6,numSlice=4:

  • 第一刀,切在floor(1*6/4)=1处,索引所于[0,1)的在一个分区,即0
  • 第二刀,切在floor(2*6/4)=3处,索引所于[1,3)的在一个分区 ,即1、2
  • 第三刀,切在floor(3*6/4)=4处,索引所于[3,4)的在一个分区 ,即3
  • 第四刀,切在floor(4*6/4)=6处,索引所于[4,6)的在一个分区 ,即4、5

                                2021-11-12 于南京市江宁区九龙湖

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值