数据倾斜: 由于map中的key通过hash取模算法进行分区,大多数取模的值都相同,这样就导致分区的数量出现两极分化,称这种现象为数据倾斜。 解决数据倾斜: 重写分区方法,进行自定义分区。增大reduce的个数重构数据的key,增大hash的随机概率。