Spark参数调优

最新推荐文章于 2023-07-02 11:55:48 发布

乖乖猪001

最新推荐文章于 2023-07-02 11:55:48 发布

阅读量859

点赞数 1

分类专栏： spark 大数据文章标签： spark

本文链接：https://blog.csdn.net/xiaozhaoshigedasb/article/details/112258268

版权

spark.yarn.executor.memoryOverhead

设置堆外内存，当出现超出物理内存使用，被yarn杀死的情况是，需要合理设置这个值，一般设置2G够用了
spark.sql.shuffle.partitions

sparksql的shuffle默认的并行度只有200，要想提高并行度，则需要调大这个值，以避免资源浪费或者单个task处理过大的数据，建议设置为总core的三倍
spark.sql.adaptive.enabled

开启自适应机制，建议为true
spark.sql.adaptive.shuffle.targetPostShuffleInputSize

该参数是用于开启spark的自适应执行，后面的targetPostShuffleInputSize是用于控制之后的shuffle 阶段的平均输入数据大小，防止产生过多的task
spark.sql.adaptive.join.enabled

开启自适应join，spark会根据数据量以及Sql自动选择合适的Join方式，建议设置为true，开启这个参数需要开启spark.sql.adaptive.enabled
spark.speculation

开启推测机制，运行缓慢的task，会尝试在其他已经空闲的task上执行，先执行完会kill掉另一个没有执行完的task，建议设置为true
spark.yarn.max.executor.failures

应用程序失败之前的最大执行程序失败次数，建议调大这个值，如100
spark.executor.heartbeat

关注