spark很让人迷惑的问题就是分区了。
1.spark可以分成两代,第一代是rdd,主要是用来分析日志文件比较多,rdd里面就涉及到了分区的概念,spark是怎么去执行一个程序的。到了第二代,sparksql,已经没有需要个人自己去分区了,更多是操纵表,写sql。
2.spark分区原则:
(1)rdd分区的原则是尽量利用集群中的cpu数量,比如一个wordcount任务,一开始根据整个集群中cpu的个数,分成的份数尽量等于cpu核数,就可以充分利用cpu的资源。
(2)rdd在有两种创建方法,分别是parallelize()方法和textFile()方法,两种方法都可以设置分区。
3.parallelize()创建rdd分区分析
在创建rdd的时候,parallelize()中有个numSlices参数,是输入分区数的。比如想分成5个分区就填5。
当然numSlices这个参数是可以不设定的,不设定的时候系统有默认值,下面分析。
在idea中ctrl+鼠标左键点击parallelize(),进入parallelize()函数
def parallelize[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T] = withScope {
assertNotStopped()
new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
}
可以看到 numSlices: Int = defaultParallelism
在idea中ctrl+鼠标左键点击defaultParallelism
/** Default level of parallelism to use when not given by user (e.g. parallelize and makeRDD). */
def defaultParallelism: Int = {
assertNotStopped()
taskScheduler.defaultParallelism
}
在idea中ctrl+鼠标左键点击defaultParallelism
// Get the default level of parallelism to use in the cluster, as a hint for sizing jobs.
def defaultParallelism(): Int
在idea中代码往上拉,可以看到defaultParallelism是特质TaskScheduler的一个无参数方法
scala中特质相当于java的接口,那么就具体的实现方法应该是在实现类里面。
鼠标点在TaskScheduler,按ctrl+h搜到它的实现类TaskSchedulerImpl
往下拉可以找到一个函数defaultParallelism(),重写了方法。
override def defaultParallelism(): Int = backend.defaultParallelism()
可以想到计算的方法可能是在backend中。
ctrl+鼠标左键点击backend
var backend: SchedulerBackend = null
可以看到backend的数据类型是SchedulerBackend
ctrl+鼠标左键点击SchedulerBackend
发现SchedulerBackend也是一个特质,还有一个。那么接着找它的实现类。ctrl+h
找到两个实现类。
def defaultParallelism(): Int
我们先看LocalSchedulerBackend类
在类中终于找到了分区的计算方法,默认是总cpu核数
override def defaultParallelism(): Int =
scheduler.conf.getInt("spark.default.parallelism", totalCores)
接着看CoarseGrainedSchedulerBackend类,分区是cpu总核数和2的最大值,最小分两个区
override def defaultParallelism(): Int = {
conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2))
}