整理一些Spark数据倾斜解决的思路

最新推荐文章于 2024-09-29 08:52:43 发布

淡定一生2333

最新推荐文章于 2024-09-29 08:52:43 发布

阅读量2k

点赞数 2

分类专栏： Spark学习

本文链接：https://blog.csdn.net/zc19921215/article/details/106912606

版权

Spark学习专栏收录该内容

31 篇文章 5 订阅

订阅专栏

项目中经常会使用到Spark进行批处理，数据量大的时候总是会遇到数据倾斜的情况，参考了项目中遇到的情况以及网上的一些案例，写篇文章来总结下如何处理Spark中常见的数据倾斜问题。当然由于业务场景不一样，本文说到的一些解决数据倾斜的思路肯定不全，如果有更好的方法，方便的话在评论里也告诉我一下哈。

啥叫数据倾斜：

Spark的RDD由多个Partition组成，如果某个Partition的数据比其他Partition的数据要多很多，这个就是数据倾斜，如下图所示：

数据倾斜会导致某个spark任务耗时过长，导致整体任务耗时增加，甚至可能造成OOM。

数据倾斜大概率是由于HashPartitioner引起的，Range不会，具体可以看我之前写的《HashPartitioner 与 RangePartitioner》那篇文章。

数据倾斜为什么会造成OOM:

在之前分析Shuffle的时候说过，ShuffleWrite端使用的数据结构PartitionedAppendOnlyMap、PartitionedPairBuffer以及ShuffleReader端使用的ExternalAppendOnlyMap、ExternalSorter等等，都会检查缓存数据的大小，如果太大就会讲数据刷写到磁盘，即理论上应该不会出现OOM。

个人认为是由于Spark并非来一条数据就计算一次内存使用大小，那样太费性能了。Spark使用的是按等比的采样数量来估算大小，比如第一条、第二条、第四条、第八条..这样很容易造成估计的内存大小不准确，从而造成OOM。