Spark004-rdd分区逻辑

最新推荐文章于 2024-07-29 09:42:20 发布

维格堂406小队

最新推荐文章于 2024-07-29 09:42:20 发布

阅读量771

点赞数

分类专栏： ★★★Spark

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/121355953

版权

spark scala

★★★Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Intro

rdd是怎么做分区切分的，即怎么把数据存放到各个分区中，直接看代码。

Code

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("local[1]").getOrCreate()
val dataRDD = spark.sparkContext.makeRDD(List(0，1, 2, 3, 4,5,), 4)
dataRDD.foreachPartition(part => {
      println("---- partitions -----")
      println(part.toArray.mkString(","))
    })

---- partitions -----
0
---- partitions -----
1,2
---- partitions -----
3
---- partitions -----
4,5

程序执行结果如上，发现分组有些奇怪，两个元素的分区，不是在最前，也不是在最后。下面看下分区逻辑。

分区逻辑

def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
      (0 until numSlices).iterator.map { i =>
        val start = ((i * length) / numSlices).toInt
        val end = (((i + 1) * length) / numSlices).toInt
        (start, end)
      }
    }

核心代码如上，具体逻辑：

length：rdd长度，numSlice：分区数
按照公式计算生产numSlice个元组
几个元组前后相连，相当于把length切分成各个分区

打个比方，方便理解，有一根线段，长为length，切(numSlice-1)次，每次切分点为((i * length) / numSlices).toInt
上例中，length=6，numSlice=4：

第一刀，切在floor(1*6/4)=1处，索引所于[0,1)的在一个分区，即0
第二刀，切在floor(2*6/4)=3处，索引所于[1,3)的在一个分区，即1、2
第三刀，切在floor(3*6/4)=4处，索引所于[3,4)的在一个分区，即3
第四刀，切在floor(4*6/4)=6处，索引所于[4,6)的在一个分区，即4、5

2021-11-12 于南京市江宁区九龙湖

维格堂406小队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark004-rdd分区逻辑

Infordd是怎么做分区切分的，即怎么把数据存放到各个分区中，直接看代码。Codeimport org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().master("local[1]").getOrCreate()val dataRDD = spark.sparkContext.makeRDD(List(0，1, 2, 3, 4,5,), 4)dataRDD.foreachPartition(part =>
复制链接

扫一扫

专栏目录