spark中rdd分区源码分析——parallelize()创建rdd时的分区分析

最新推荐文章于 2022-07-13 17:41:45 发布

新宿一次狼

最新推荐文章于 2022-07-13 17:41:45 发布

阅读量1.7k

点赞数 3

分类专栏： spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/youmianzhou/article/details/109709708

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

spark很让人迷惑的问题就是分区了。
1.spark可以分成两代，第一代是rdd，主要是用来分析日志文件比较多，rdd里面就涉及到了分区的概念，spark是怎么去执行一个程序的。到了第二代，sparksql，已经没有需要个人自己去分区了，更多是操纵表，写sql。

2.spark分区原则：
(1)rdd分区的原则是尽量利用集群中的cpu数量，比如一个wordcount任务，一开始根据整个集群中cpu的个数，分成的份数尽量等于cpu核数，就可以充分利用cpu的资源。
(2)rdd在有两种创建方法，分别是parallelize()方法和textFile()方法，两种方法都可以设置分区。

3.parallelize()创建rdd分区分析
在这里插入图片描述
在创建rdd的时候，parallelize()中有个numSlices参数，是输入分区数的。比如想分成5个分区就填5。

当然numSlices这个参数是可以不设定的，不设定的时候系统有默认值，下面分析。

在idea中ctrl+鼠标左键点击parallelize()，进入parallelize()函数

  def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
  }

可以看到 numSlices: Int = defaultParallelism
在idea中ctrl+鼠标左键点击defaultParallelism

/** Default level of parallelism to use when not given by user (e.g. parallelize and makeRDD). */
  def defaultParallelism: Int = {
    assertNotStopped()
    taskScheduler.defaultParallelism
  }

在idea中ctrl+鼠标左键点击defaultParallelism

// Get the default level of parallelism to use in the cluster, as a hint for sizing jobs.
  def defaultParallelism(): Int

在idea中代码往上拉，可以看到defaultParallelism是特质TaskScheduler的一个无参数方法
在这里插入图片描述
scala中特质相当于java的接口，那么就具体的实现方法应该是在实现类里面。

鼠标点在TaskScheduler，按ctrl+h搜到它的实现类TaskSchedulerImpl
往下拉可以找到一个函数defaultParallelism()，重写了方法。

 override def defaultParallelism(): Int = backend.defaultParallelism()

可以想到计算的方法可能是在backend中。
ctrl+鼠标左键点击backend

var backend: SchedulerBackend = null

可以看到backend的数据类型是SchedulerBackend
ctrl+鼠标左键点击SchedulerBackend
在这里插入图片描述
发现SchedulerBackend也是一个特质，还有一个。那么接着找它的实现类。ctrl+h
找到两个实现类。

def defaultParallelism(): Int

在这里插入图片描述
我们先看LocalSchedulerBackend类
在类中终于找到了分区的计算方法，默认是总cpu核数

  override def defaultParallelism(): Int =
    scheduler.conf.getInt("spark.default.parallelism", totalCores)

接着看CoarseGrainedSchedulerBackend类，分区是cpu总核数和2的最大值，最小分两个区

  override def defaultParallelism(): Int = {
    conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2))
  }

新宿一次狼

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
spark中rdd分区源码分析——parallelize()创建rdd时的分区分析

spark很让人迷惑的问题就是分区了。1.spark可以分成两代，第一代是rdd，主要是用来分析日志文件比较多，rdd里面就涉及到了分区的概念，spark是怎么去执行一个程序的。到了第二代，sparksql，已经没有需要个人自己去分区了，更多是操纵表，写sql。2.spark分区原则：(1)rdd分区的原则是尽量利用集群中的cpu数量，比如一个wordcount任务，一开始根据整个集群中cpu的个数，分成的份数尽量等于cpu核数，就可以充分利用cpu的资源。(2)rdd在有两种创建方法，分别是par
复制链接

扫一扫