Hive怎么处理数据倾斜问题
Hive怎么处理数据倾斜问题
group by 倾斜
group by语句中出现的倾斜,通过改变写法或参数设置
原理:1次reduce->2次reduce
1 写法调整
对于确定的倾斜值,先均匀分布到各个reducer上,然后开启新一轮reducer进行统计操作。写法如下
-- 正常写法
select key,count(1) as cnt
from tb_name
group by key;
-- 改进后写法
select a.key,sum(cnt) as cnt
from (
select
原创
2020-08-05 14:53:28 ·
472 阅读 ·
0 评论