-
spark.yarn.executor.memoryOverhead
设置堆外内存,当出现超出物理内存使用,被yarn杀死的情况是,需要合理设置这个值,一般设置2G够用了
-
spark.sql.shuffle.partitions
sparksql的shuffle默认的并行度只有200,要想提高并行度,则需要调大这个值,以避免资源浪费或者单个task处理过大的数据,建议设置为总core的三倍
-
spark.sql.adaptive.enabled
开启自适应机制,建议为true
-
spark.sql.adaptive.shuffle.targetPostShuffleInputSize
该参数是用于开启spark的自适应执行,后面的targetPostShuffleInputSize是用于控制之后的shuffle 阶段的平均输入数据大小,防止产生过多的task
-
spark.sql.adaptive.join.enabled
开启自适应join,spark会根据数据量以及Sql自动选择合适的Join方式,建议设置为true,开启这个参数需要开启spark.sql.adaptive.enabled
-
spark.speculation
开启推测机制,运行缓慢的task,会尝试在其他已经空闲的task上执行,先执行完会kill掉另一个没有执行完的task,建议设置为true
-
spark.yarn.max.executor.failures
应用程序失败之前的最大执行程序失败次数,建议调大这个值,如100
-
spark.executor.heartbeat
Spark参数调优
最新推荐文章于 2023-07-02 11:55:48 发布