Spark参数调优

  1. spark.yarn.executor.memoryOverhead

    设置堆外内存,当出现超出物理内存使用,被yarn杀死的情况是,需要合理设置这个值,一般设置2G够用了

  2. spark.sql.shuffle.partitions

    sparksql的shuffle默认的并行度只有200,要想提高并行度,则需要调大这个值,以避免资源浪费或者单个task处理过大的数据,建议设置为总core的三倍

  3. spark.sql.adaptive.enabled

    开启自适应机制,建议为true

  4. spark.sql.adaptive.shuffle.targetPostShuffleInputSize

    该参数是用于开启spark的自适应执行,后面的targetPostShuffleInputSize是用于控制之后的shuffle 阶段的平均输入数据大小,防止产生过多的task

  5. spark.sql.adaptive.join.enabled

    开启自适应join,spark会根据数据量以及Sql自动选择合适的Join方式,建议设置为true,开启这个参数需要开启spark.sql.adaptive.enabled

  6. spark.speculation

    开启推测机制,运行缓慢的task,会尝试在其他已经空闲的task上执行,先执行完会kill掉另一个没有执行完的task,建议设置为true

  7. spark.yarn.max.executor.failures

    应用程序失败之前的最大执行程序失败次数,建议调大这个值,如100

  8. spark.executor.heartbeat

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值