Spark: Data Skew 优化

什么是数据倾斜?

数据倾斜data skew是在表的数据的不同分区partition数据在集群里面分布不均衡的现象。
数据倾斜会带来作业性能尤其是Join的时候。 当join发生在几个大表之间,发生shuffle的时候,数据倾斜会带来工作节点严重的负载不均衡Imbalance。例如有在200个task中有3个task会远远慢于其他worker.
在这里插入图片描述

数据倾斜原因

当join需要shuffle 的时候,需要根据Join字段重新分布,由于spark按照字段hash值来进行组织partition,并且一个partition 对应一个task,这就会导致数据重复的字段都会集中到一个partition并且传导到集中到一个task上面。

如何解决

倾斜字段加盐salt

倾斜字段上面加上随机数,这样可以每个分区上均衡分布。人为的对倾斜字段的高频次数值加盐。

增加skew hint

改变执行计划,不要在倾斜字段上面做shuffle。

-- single column, single skew value
SELECT /*+ SKEW('orders', 'o_custId', 0) */ *
  FROM orders, customers
  WHERE o_custId = c_custId

-- single column, multiple skew values
SELECT /*+ SKEW('orders', 'o_custId', (0, 1, 2)) */ *
  FROM orders, customers
  WHERE o_custId = c_custId

-- multiple columns, multiple skew values
SELECT /*+ SKEW('orders', ('o_custId', 'o_storeRegionId'), ((0, 1001), (1, 1002))) */ *
  FROM orders, customers
  WHERE o_custId = c_custId AND o_storeRegionId = c_regionId

使用broadcast join

只是对小表有效,避免了shuffle操作。

-- Join Hints for broadcast join
SELECT /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECT /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
SELECT /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;

启动Adaptive query execution (AQE)

spark 3.2之后就默认启动了AQE。其原理就是改变一个partition对应一个task的问题,可以一个partition对应n个task,并且是动态调整。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值