什么是数据倾斜?
数据倾斜data skew是在表的数据的不同分区partition数据在集群里面分布不均衡的现象。
数据倾斜会带来作业性能尤其是Join的时候。 当join发生在几个大表之间,发生shuffle的时候,数据倾斜会带来工作节点严重的负载不均衡Imbalance。例如有在200个task中有3个task会远远慢于其他worker.
数据倾斜原因
当join需要shuffle 的时候,需要根据Join字段重新分布,由于spark按照字段hash值来进行组织partition,并且一个partition 对应一个task,这就会导致数据重复的字段都会集中到一个partition并且传导到集中到一个task上面。
如何解决
倾斜字段加盐salt
倾斜字段上面加上随机数,这样可以每个分区上均衡分布。人为的对倾斜字段的高频次数值加盐。
增加skew hint
改变执行计划,不要在倾斜字段上面做shuffle。
-- single column, single skew value
SELECT /*+ SKEW('orders', 'o_custId', 0) */ *
FROM orders, customers
WHERE o_custId = c_custId
-- single column, multiple skew values
SELECT /*+ SKEW('orders', 'o_custId', (0, 1, 2)) */ *
FROM orders, customers
WHERE o_custId = c_custId
-- multiple columns, multiple skew values
SELECT /*+ SKEW('orders', ('o_custId', 'o_storeRegionId'), ((0, 1001), (1, 1002))) */ *
FROM orders, customers
WHERE o_custId = c_custId AND o_storeRegionId = c_regionId
使用broadcast join
只是对小表有效,避免了shuffle操作。
-- Join Hints for broadcast join
SELECT /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECT /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
SELECT /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;
启动Adaptive query execution (AQE)
spark 3.2之后就默认启动了AQE。其原理就是改变一个partition对应一个task的问题,可以一个partition对应n个task,并且是动态调整。