spark中excutor的个数、内存大小、core的个数、task的个数、分区的个数、集群的资源情况等的关系

最新推荐文章于 2025-03-24 15:04:33 发布

xuehuagongzi000

最新推荐文章于 2025-03-24 15:04:33 发布

阅读量1w

点赞数 14

分类专栏： spark

本文链接：https://blog.csdn.net/xuehuagongzi000/article/details/103081319

版权

spark 专栏收录该内容

25 篇文章

订阅专栏

1、Spark性能调优之资源分配大体上这两个方面：core mem

（1）、分配哪些资源？

（2）、在哪里分配这些资源？

（3）、调节到多大，算是最大呢？

（4）、为什么调节了资源以后，性能可以提升？

1、Spark性能调优之资源分配大体上这两个方面：core mem

（1）、分配哪些资源？

executor、core per executor、memory per executor、driver memory

（2）、在哪里分配这些资源？

在我们在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数

/usr/local/spark/bin/spark-submit \

--class cn.spark.sparktest.core.WordCountCluster \

--num-executors 3 \ 配置executor的数量

--executor-memory 100m \ 配置每个executor的内存大小

--executor-cores 3 \ 配置每个executor的cpu core数量

--driver-memory 100m \ 配置driver的内存（影响很大）

/usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

（3）、调节到多大，算是最大呢？

第一种，Spark Standalone，公司集群上，搭建了一套Spark集群，你心里应该清楚每台机器还能够

给你使用的，大概有多少内存，多少cpu core；那么，设置的时候，就根据这个实际的情况，

去调节每个spark作业的资源分配。比如说你的每台机器能够给你使用4G内存，2个cpu core；

20台机器；executor，20；平均每个executor：4G内存，2个cpu core。

案例：

第二种，Yarn。资源队列。资源调度。应该去查看，你的spark作业，要提交到的资源队列，

hadoop spark storm 每一个队列都有各自的资源（cpu mem）

大概有多少资源？500G内存，100个cpu core；executor，50；平均每个executor:10G内存，2个cpu core。

（4）、为什么调节了资源以后，性能可以提升？

增加executor：

如果executor数量比较少，那么，能够并行执行的task数量就比较少，就意味着，我们的Application的并行执行的能力就很弱。

比如有3个executor，每个executor有2个cpu core，那么同时能够并行执行的task，就是6个。6个执行完以后，再换下一批6个task。增加了executor数量以后，那么，就意味着，能够并行执行的task数量，也就变多了。比如原先是6个，现在可能可以并行执行10个，甚至20个，100个。那么并行能力就比之前提升了数倍，数十倍。相应的，性能（执行的速度），也能提升数倍~数十倍。

增加每个executor的cpu core：

也是增加了执行的并行能力。原本20个executor，每个才2个cpu core。能够并行执行的task数量，

就是40个task。现在每个executor的cpu core，增加到了5个。能够并行执行的task数量，就是100个task。执行的速度，提升了2倍左右。

增加每个executor的内存量：

增加了内存量以后，对性能的提升，有三点：

1、如果需要对RDD进行cache，那么更多的内存，就可以缓存更多的数据，将更少的数据写入磁盘，

甚至不写入磁盘。减少了磁盘IO。

2、对于shuffle操作，reduce端，会需要内存来存放拉取的数据并进行聚合。如果内存不够，也会写入磁盘。如果给executor分配更多内存以后，就有更少的数据，需要写入磁盘，甚至不需要写入磁盘。减少了磁盘IO，提升了性能。

3、对于task的执行，可能会创建很多对象。如果内存比较小，可能会频繁导致JVM堆内存满了，

然后频繁GC，垃圾回收，minor GC和full GC。（速度很慢）。内存加大以后，带来更少的GC，垃圾回收，

避免了速度变慢，性能提升。

2、分区个数和task个数的关系

（1）、RDD在计算的时候，每个分区都会起一个task，所以rdd的分区数目决定了总的的task数目。
申请的计算节点（Executor）数目和每个计算节点核数，决定了你同一时刻可以并行执行的task。

每个节点可以起一个或多个Executor。
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task。
每个Task执行的结果就是生成了目标RDD的一个partiton。
Task被执行的并发度 = Executor数目（SPARK_EXECUTOR_INSTANCES） * 每个Executor核数（SPARK_EXECUTOR_CORES）

3、Spark性能调优之合理设置并行度

（1）、Spark的并行度指的是什么？

spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！

当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉了。同时并行运行，还可以让每个task要处理的数量变少（很简单的原理。合理设置并行度，可以充分利用集群资源，减少每个task处理数据量，而增加性能加快运行速度。）

举例：

假如，现在已经在spark-submit 脚本里面，给我们的spark作业分配了足够多的资源，比如50个executor ，每个executor 有10G内存，每个executor有3个cpu core 。基本已经达到了集群或者yarn队列的资源上限。

task没有设置，或者设置的很少，比如就设置了，100个task 。 50个executor ，每个executor 有3个core ，也就是说
Application 任何一个stage运行的时候，都有总数150个cpu core ，可以并行运行。但是，你现在只有100个task ，平均分配一下，每个executor 分配到2个task，ok，那么同时在运行的task，只有100个task，每个executor 只会并行运行 2个task。每个executor 剩下的一个cpu core 就浪费掉了！你的资源，虽然分配充足了，但是问题是，并行度没有与资源相匹配，导致你分配下去的资源都浪费掉了。合理的并行度的设置，应该要设置的足够大，大到可以完全合理的利用你的集群资源； 比如上面的例子，总共集群有150个cpu core ，可以并行运行150个task。那么你就应该将你的Application 的并行度，至少设置成150个，才能完全有效的利用你的集群资源，让150个task ，并行执行，而且task增加到150个以后，即可以同时并行运行，还可以让每个task要处理的数量变少；比如总共 150G 的数据要处理， 如果是100个task ，每个task 要计算1.5G的数据。现在增加到150个task，每个task只要处理1G数据。

（2）、如何去提高并行度？

1、task数量，至少设置成与spark Application 的总cpu core 数量相同（最理性情况，150个core，分配150task，一起运行，差不多同一时间运行完毕）官方推荐，task数量，设置成spark Application 总cpu core数量的2~3倍，比如150个cpu core ，基本设置 task数量为 300~ 500. 与理性情况不同的，有些task 会运行快一点，比如50s 就完了，有些task 可能会慢一点，要一分半才运行完，所以如果你的task数量，刚好设置的跟cpu core 数量相同，可能会导致资源的浪费，因为比如150task ，10个先运行完了，剩余140个还在运行，但是这个时候，就有10个cpu core空闲出来了，导致浪费。如果设置2~3倍，那么一个task运行完以后，另外一个task马上补上来，尽量让cpu core不要空闲。同时尽量提升spark运行效率和速度。提升性能。

2、如何设置一个Spark Application的并行度？

spark.defalut.parallelism 默认是没有值的，如果设置了值比如说10，是在shuffle的过程才会起作用（val rdd2 = rdd1.reduceByKey(_+_) //rdd2的分区数就是10，rdd1的分区数不受这个参数的影响）

new SparkConf().set(“spark.defalut.parallelism”,”“500)

4、RDD.repartition，给RDD重新设置partition的数量

5、reduceByKey的算子指定partition的数量

val rdd2 = rdd1.reduceByKey(_+_,10) val rdd3 = rdd2.map.filter.reduceByKey(_+_)

6、val rdd3 = rdd1.join（rdd2） rdd3里面partiiton的数量是由父RDD中最多的partition数量来决定，因此使用join算子的时候，增加父RDD中partition的数量。