记录一次spark2.x数据倾斜(隐藏的笛卡尔积)排查处理过程
目录
一、问题描述
二、尝试调整参数
三、查看spark具体sql流程图
一、问题描述
有一个dwd层中间表的入表任务,有几天的日期永远无法执行成功,平时的任务时间大概在2分钟。之前也遇到过一次这样的情况,是通过排查脏数据得到了解决(长字符串id中有不规则脏字符),这次实在没有头绪。
二、尝试调整参数
因为查看yarn任务的页面,发现总是报错在拒绝连接,看到有个别任务总是执行半天卡住,并且shuffle的records数量也明显高于其他exceutor,并且不仅spill到内存,甚至到了磁
原创
2022-04-17 15:56:43 ·
1828 阅读 ·
0 评论