解决大数据Spark开发过程中的数据倾斜问题

okay3020

已于 2022-03-11 22:33:34 修改

阅读量2.1k

点赞数 1

文章标签： big data spark hadoop

于 2022-03-11 21:07:03 首次发布

本文链接：https://blog.csdn.net/weixin_45219860/article/details/123432765

版权

一、遇到的问题场景：
RDD可以通过hash进行分区，通过其给的key的值，计算其hashcode,并除以分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的这个值就是key所属的分区号。

HashPartitioner分区弊端:可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据（数据倾斜) hash大量碰撞的结果
在这里插入图片描述 二、解决方法
1.可以预聚合如果（hello,1)有80万条数据提前预聚合然后80万条数据就变成1条数据了，这时再进行hash分区（不会都放在一个分区里面）这样就不会有数据倾斜的问题了

2.不能用预聚合（groupByKey处理数据) A、D、G都有100万条数据按照key进行hash分区就会造成数据倾斜问题。
理想状态是A的100万条数据都进入0分区 D的100万条数据都进入1分区 G的100万条数据都进入2分区
这时候不使用hash分区了先对key走wordCount预聚合看key是不是多的那100万条数据取key的top10或者topic3 这时候自定义分区器如果A的key放到0号分区如果是D的key放到1号分区如果是G的key放到2号分区

3.如果只有A的key有300万条数据可以自定义分区器可以给A 写一个随机数让A的key随机放到三个分区里，有一个问题并没有聚合在一起，在三个分区里
第二种让A的key和字符串进行拼接成（A1、A2、A3…) 然后让A1走1号分区 A2走2号分区 A3走3号分区，然后在下游还是需要聚合一下
三、大概步骤截图
在这里插入图片描述

okay3020

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
解决大数据Spark开发过程中的数据倾斜问题

遇到的问题场景：RDD可以通过hash进行分区，通过其给的key的值，计算其hashcode,并除以分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的这个值就是key所属的分区号。HashPartitioner分区弊端:可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据（数据倾斜) hash大量碰撞的结果1.可以预聚合如果（hello,1)有80万条数据提前预聚合然后80万条数据就变成1条数据了，这时再进行hash分区（不会都放在一个分区里面）这样
复制链接

扫一扫