数据倾斜出现现象 整个job执行很久,或者无法执行成功,无法执行完毕 数据倾斜出现原因 原因 shuffle -->分区逻辑 key本身就是倾斜的 内存不足 分区逻辑(可能取模之后就直接分配不均衡) key倾斜(有一个key的数量多取模之后它的分区数据也多) 数据倾斜解决方法 重写分区逻辑重新设计key √增加reduce的并行度 2----->10避免shuffle(reduce没有或为1)增加一些内存