解决数据倾斜的几种方法
1.从数据源清理做起。比如去除噪点数据,裁剪边
2.增加partition,提高并行度。(注意,这个只会缓解数据倾斜,使得每个excutor可以处理更少的key,但如果一个key的数目超级多,还是无法解决)
3.利用广播变量调优。join的时候,将数据量小的一方作为广播变量。
4.拆解热点key。可以rdd.sample(false,0.1)抽样一下,看一下哪个key最多。 注意,这里不能直...
原创
2019-12-01 21:42:05 ·
2013 阅读 ·
0 评论