spark调优之Spark作业资源分配

最新推荐文章于 2024-06-04 14:11:33 发布

zuodaoyong

最新推荐文章于 2024-06-04 14:11:33 发布

阅读量2k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/zuodaoyong/article/details/96781003

版权

spark 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task任务组会被分配到executor上面去执行。Spark通过shuffle将任务分成多个stage。

CPU的core数量，每个executor可以占用一个或多个core，可以通过观察CPU的使用率变化来了解计算资源的使用情况，例如，很常见的一种浪费是一个executor占用了多个core，但是总的CPU使用率却不高（因为一个executor并不总能充分利用多核的能力），这个时候可以考虑让一个executor占用更少的core，同时worker下面增加更多的executor，或者一台host上面增加更多的worker来增加并行执行的executor的数量，从而增加CPU利用率。但是增加executor的时候需要考虑好内存消耗，因为一台机器的内存分配给越多的executor，每个executor的内存就越小，以致出现过多的数据spill over甚至out of memory的情况。

partition和parallelism，partition指的就是数据分片的数量，每一次task只能处理一个partition的数据，这个值太小了会导致每片数据量太大，导致内存压力，或者诸多executor的计算能力无法利用充分；但是如果太大了则会导致分片太多，执行效率降低。在执行action类型操作的时候（比如各种reduce操作），partition的数量会选择parent RDD中最大的那一个。而parallelism则指的是在RDD进行reduce类操作的时候，默认返回数据的paritition数量（而在进行map类操作的时候，partition数量通常取自parent RDD中较大的一个，而且也不会涉及shuffle，因此这个parallelism的参数没有影响）。所以说，这两个概念密切相关，都是涉及到数据分片的，作用方式其实是统一的。通过spark.default.parallelism可以设置默认的分片数量，而很多RDD的操作都可以指定一个partition参数来显式控制具体的分片数量。

slave、worker和executor之间的比例调整。我们经常需要调整并行的executor的数量，那么简单说有两种方式：

1.每个worker内始终跑一个executor，但是调整单台slave上并行的worker的数量。比如，SPARK_WORKER_INSTANCES可以设置每个slave的worker的数量，但是在改变这个参数的时候，比如改成2，一定要相应设置SPARK_WORKER_CORES的值，让每个worker使用原有一半的core，这样才能让两个worker一同工作；

2.每台slave内始终只部署一个worker，但是worker内部署多个executor。我们是在YARN框架下采用这个调整来实现executor数量改变的，一种典型办法是，一个host只跑一个worker，然后配置spark.executor.cores为host上CPU core的N分之一，同时也设置spark.executor.memory为host上分配给Spark计算内存的N分之一，这样这个host上就能够启动N个executor。

spark的部署主要有以下两种：StandAlone和Yarn

第一种，Spark Standalone，搭建了一套Spark集群，那么，设置的时候，就根据这个实际的情况，去调节每个spark作业的资源分配。比如每台机器能够给你使用4G内存，2个cpu core。那么如果有20台机器，则executor数为20个，每个executor的内存为：4G内存，每个executor的CPU核数：2个cpu core。

第二种，Yarn，Yarn搭建的集群中存在资源队列来调度资源。spark任务要提交到的资源队列。假设资源队列有500G内存，100个cpu core；executor，50。平均每个executor有10G内存，2个cpu core。

增加相关参数的说明：

一、增加executor

如果executor数量比较少，那么，能够并行执行的task数量就比较少，就意味着，spark的任务并行执行的能力就很弱。

比如有3个executor，每个executor有2个cpu core，那么同时能够并行执行的task，就是6个。6个执行完以后，再换下一批6个task。增加了executor数量以后，那么，就意味着，能够并行执行的task数量，也就变多了。比如原先是6个，现在可能可以并行执行10个，甚至20个，100个。那么并行能力就比之前提升了数倍，数十倍。相应的，性能（执行的速度），也能提升数倍~数十倍。

二、增加每个executor的cpu core

增加每个executor的cpu core也是增加了执行的并行能力。原本20个executor，每个才2个cpu core。能够并行执行的task数量就是40个task。现在每个executor的cpu core，增加到了5个。能够并行执行的task数量，就是100个task。

执行的速度，提升了2.5倍。

三、增加每个executor的内存量

增加了内存量以后，对性能的提升，有两点：

1、如果需要对RDD进行cache，那么更多的内存，就可以缓存更多的数据，将更少的数据写入磁盘，甚至不写入磁盘。减少了磁盘IO。

2、对于shuffle操作，reduce端，会需要内存来存放拉取的数据并进行聚合。如果内存不够，也会写入磁盘。如果给executor分配更多内存以后，就有更少的数据，需要写入磁盘，甚至不需要写入磁盘。减少了磁盘IO，提升了性能。

3、对于task的执行，可能会创建很多对象。如果内存比较小，可能会频繁导致JVM堆内存满了，然后频繁GC，垃圾回收，minor GC和full GC。（速度很慢）。内存加大以后，带来更少的GC，垃圾回收，避免了速度变慢，速度变快了。

最后列出spark-submit具体参数如下：

--num-executors 3 配置executor的数量
--driver-memory 100m 配置driver的内存（影响不大）
--executor-memory 100m 配置每个executor的内存大小
--executor-cores 3 配置每个executor的cpu core数量

sparkConf里配置的参数

spark.default.parallelism：该参数用于设置每个stage的默认task数量。这个参数极为重要，如果不设置可能会直接影响你的Spark作业性能

zuodaoyong

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
spark调优之Spark作业资源分配

每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task任务组会被分配到executor上面去执行。Spark通过shuffle将任务分成多个stage。 CPU的core数量，每个executor可以占用一个或多个core，可以通过观察CPU的使用率变化来了解计算资源的使用情况，例如，很常见的一种浪费是一个executor...
复制链接

扫一扫