大数据中Map端数据倾斜

最新推荐文章于 2024-06-26 13:45:00 发布

wenfei1997

最新推荐文章于 2024-06-26 13:45:00 发布

阅读量1.9k

点赞数 1

分类专栏：数据仓库文章标签： spark 大数据

本文链接：https://blog.csdn.net/wenfei1997/article/details/108263192

版权

数据仓库专栏收录该内容

16 篇文章 0 订阅

订阅专栏

大数据中Map端数据倾斜

map端是mapreduce任务的起始阶段，map端的主要功能是从磁盘中将数据读入内存。
在map端读数据时，由于读入数据的文件大小分布不均匀，因此会导致有些map instance读取并且处理的数据特别多，而有些map instance处理的数据特别少，造成map端长尾。具体分为以下两种情况：
1）上游表文件的大小特别不均匀，并且小文件特别多（读取的记录数少），导致当前表map端读取的数据分布不均匀，引起长尾
2） Map端做聚合时，由于某些map instance读取文件的某个值特别多（某些文件读取记录数特别多）而引起长尾。
解决方法：
1）第一种情况，可以通过对上游合并小文件，同时调节本节点的小文件的参数来进行优化。
2）第二种情况，使用distribute by rand()，来打乱数据分布，使数据尽可能分布均匀。
数据倾斜发生的原理：
在进行shuffle（数据混洗）的时候，必须将各个节点上相同的Key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或者join操作。如果某个key对应的数据量特别大的话，会发生数据倾斜。比如大部分key对应的10条数据，但个别key却对应了100万条数据，那么大部分task会只分配到10条数据，而个别task可能会分配了100万数据。整个spark作业的运行进度是由运行时间最长的那个task决定的。
因此出现数据倾斜的时候，spark作业看起来会运行得非常缓慢，甚至可能因为某个task处理的数据量过大导致OOM（内存溢出）。