Hadoop之数据倾斜

鼠鼠我呀2

已于 2022-03-03 23:07:04 修改

阅读量1.7k

点赞数

文章标签： java linux 服务器

于 2022-03-02 22:10:56 首次发布

本文链接：https://blog.csdn.net/weixin_44484668/article/details/123241144

版权

项目场景：

在对爬虫过来的数据进行数据分析时，出现OOM问题

问题描述：

数据倾斜现象

数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。

一般发生在reduce端，其他任务10s以内就执行完了，有一个任务执行了50分钟还没有执行完，程序卡在99%不动了，甚至爆出了内存溢出。

在这里插入图片描述

原因分析：

（1）一般是由于大量的key为空导致的

（2）导致数据倾斜的key大量分布在相同的mapper，map端解决：

具体步骤如下：

提前在map进行combine，减少传输的数据量
在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，较少了shuffle过程中传输的数据量，以及Reducer端的计算量,如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

（3）导致数据倾斜的key大量分布在不同的mapper，reduce端解决：

生产环境，可以直接过滤掉空值，因为key为空的数据会进入到一个reduce；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
自定义分区具体步骤如下：

	第一次在map阶段对那些导致了数据倾斜的key加上1到n的随机前缀（null+1，null+2，...），这样本来相同的key也会被分到多个Reducer中进行局部聚合，数量就会大大降低。
	第二次mapreduce，去掉key的随即前缀，进行全局聚合。
	思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的，第二次再根据去掉key的随即前缀，按原来key进行reduce处理。这个方法进行两次mapreduce，性能稍差。