spark常用参数调优

浊酒南街

已于 2024-07-30 09:58:23 修改

阅读量1.2k

点赞数 8

分类专栏： # Spark调优文章标签： spark 参数调优

于 2024-07-29 20:37:45 首次发布

本文链接：https://blog.csdn.net/weixin_43597208/article/details/140780133

版权

Spark调优专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.set spark.grouping.sets.reference.hive=true;
2.set spark.locality.wait.rack=0s
3.set spark.locality.wait=0s;
4.set spark.executor.memoryOverhead =2G;
5.set spark.sql.shuffle.partitions =1000;
6.set spark.shuffle.file.buffer =256k
7. set spark.reducer.maxSizeInFlight =96M
8.set spark.sql.files.maxPartitionBytes=3208864

1.set spark.grouping.sets.reference.hive=true;

在Spark中，设置spark.grouping.sets.reference.hive参数为true可以启用Hive引用的分组集功能。这个参数的作用是使Spark使用Hive的引用实现来处理GROUPING SETS语法。GROUPING SETS语法用于在GROUP BY子句中指定多个聚合级别，以便一次性计算多个聚合结果。启用这个参数可以让Spark使用Hive引用实现来执行这些操作，以确保与Hive兼容性。

2.set spark.locality.wait.rack=0s

在Spark中，spark.locality.wait.rack参数用于设置在任务启动之前等待数据本地性（locality）的时间阈值。数据本地性是指任务所需的数据是否已经在任务执行节点的本地存储介质上。在集群中，数据本地性可以分为PROCESS_LOCAL（数据在任务执行节点的内存中）、NODE_LOCAL（数据在任务执行节点的磁盘中）和RACK_LOCAL（数据在任务执行节点的同一机架上）。

通过设置spark.locality.wait.rack参数为0s，表示任务不会等待数据在同一机架上的本地性。这意味着Spark任务将不会等待数据在同一机架上可用，而会立即启动。这可能会提高任务的启动速度，但也可能导致更多的数据远程读取，因此需要根据具体情况进行权衡。

3.set spark.locality.wait=0s;

在Spark中，spark.locality.wait参数用于设置任务启动之前等待数据本地性的时间阈值。数据本地性是指任务所需的数据是否已经在任务执行节点的本地存储介质上。在集群中，数据本地性可以分为PROCESS_LOCAL（数据在任务执行节点的内存中）、NODE_LOCAL（数据在任务执行节点的磁盘中）、RACK_LOCAL（数据在任务执行节点的同一机架上）和ANY（任意位置）。

通过设置spark.locality.wait参数为0s，表示任务不会等待数据在任何本地性级别上可用，而会立即启动。这可能会提高任务的启动速度，但也可能导致更多的数据远程读取，因此需要根据具体情况进行权衡。

4.set spark.executor.memoryOverhead =2G;

在Spark中，spark.executor.memoryOverhead参数用于设置每个Executor的内存使用的额外空间。这个额外的空间用于Executor的内部结构和外部过程，例如任务执行和数据结构缓存。设置这个参数可以确保Executor有足够的内存用于执行任务和管理数据，同时避免内存溢出的情况发生。

5.set spark.sql.shuffle.partitions =1000;

在Spark中，spark.sql.shuffle.partitions参数用于设置在执行shuffle操作（例如group by或者join）时产生的分区数量。通过设置这个参数，可以控制shuffle操作的并行度，从而影响任务的性能和资源利用。

在Reduce阶段，RDD的聚合会触发shuffle操作，聚合后的RDD的partition数目跟具体操作有关，RDD在计算的时候，每个分区都会起一个task，所以rdd的分区数目决定了总的task数目。申请的计算节点（Executor）数目和每个计算节点核数，决定了你同一时刻可以并行执行的task。

比如：RDD有100个分区，那么计算的时候就会生成100个task，设置task间并行的参数是conf spark.sql.shuffle.partitions=100，你的资源配置为10个计算节点，（执行器excutor） --num-executors 10 默认为2一般设置在50-100之间，每个2个核，executor-cores 2 一般 2~4 为宜。同一时刻可以并行的task数目为20，计算这个RDD就需要5个轮次。Task被执行的并发度 = Executor数目 * 每个Executor核数（=core总个数）。