spark异常分析(一)

程序频繁出现lost executor问题,提示与某个节点无法连接,failed to connect to……

观察异常节点在集群里面的情况,如下,隔一段时间会出现网络异常


最开始,我们以为是机房网络出了问题,于是对这个节点的流量进行监控,发现如下:(该服务器的交换机端口有流量打满的情况)


观察程序运行,故障发生在大数据量的shuffle read过程,每次在这个环节会lost executor

所以还是程序的问题,spark job的shuffle数据量过大,占完了机器的带宽

准备减少单个机器的shuffle数据量,增大数据分区,让每个任务处理的数据量减少

在spark-sql中的设置如下:

spark.sql.shuffle.partitions=xxx(默认为200,根据数据情况适量增大xxx)

如果是直接操作rdd,则设置如下:

spark.default.parallelism=xxx(默认为200,根据数据情况适量增大xxx)

经过调整之后,问题没有再出现。




  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值