Spark调优学习记录(十三)Job优化

调节数据本地化等待时长

prcess_local  进程本地化

node_local    节点本地化

rack_local     机架本地化

any                非本地化

使用堆外内存

当要缓存的数据超级大时,如果存在堆内会触发Full GC,会STW,进程停止工作。

这时考虑使用堆外内存。

spark.memory.offHeap.size

调整连接等待时长

当spark的execuotr进程发生FULL GC,停止工作时,超过一定时间无法建立网络连接,导致网络连接超时。

生产环境下,有时会遇到file not found、file lost等错误,很多是因为Execuotr的BlockManager在拉取数据的时候,无法建立接连,超出默认连接等待时长120s。宣告失败,重试。

可以适当增加超时时长,给些机会。比如:

spark.core.connection.ack.wait.timeout = 300s  # 默认120s
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值