Spark: Data Skew 优化

最新推荐文章于 2024-03-21 09:05:55 发布

数据驱动足迹

最新推荐文章于 2024-03-21 09:05:55 发布

阅读量1k

点赞数

分类专栏： Spark 文章标签： spark big data java

本文链接：https://blog.csdn.net/weixin_47235286/article/details/121884043

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是数据倾斜？

数据倾斜data skew是在表的数据的不同分区partition数据在集群里面分布不均衡的现象。
数据倾斜会带来作业性能尤其是Join的时候。当join发生在几个大表之间，发生shuffle的时候，数据倾斜会带来工作节点严重的负载不均衡Imbalance。例如有在200个task中有3个task会远远慢于其他worker.
在这里插入图片描述

数据倾斜原因

当join需要shuffle 的时候，需要根据Join字段重新分布，由于spark按照字段hash值来进行组织partition，并且一个partition 对应一个task，这就会导致数据重复的字段都会集中到一个partition并且传导到集中到一个task上面。

如何解决

倾斜字段加盐salt

倾斜字段上面加上随机数，这样可以每个分区上均衡分布。人为的对倾斜字段的高频次数值加盐。

增加skew hint

改变执行计划，不要在倾斜字段上面做shuffle。

-- single column, single skew value
SELECT /*+ SKEW('orders', 'o_custId', 0) */ *
  FROM orders, customers
  WHERE o_custId = c_custId

-- single column, multiple skew values
SELECT /*+ SKEW('orders', 'o_custId', (0, 1, 2)) */ *
  FROM orders, customers
  WHERE o_custId = c_custId

-- multiple columns, multiple skew values
SELECT /*+ SKEW('orders', ('o_custId', 'o_storeRegionId'), ((0, 1001), (1, 1002))) */ *
  FROM orders, customers
  WHERE o_custId = c_custId AND o_storeRegionId = c_regionId

使用broadcast join

只是对小表有效，避免了shuffle操作。

-- Join Hints for broadcast join
SELECT /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECT /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
SELECT /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;