面试: Hive数据倾斜汇总
文章目录倾斜现象产生场景join阶段产生原因解决方案开启负载均衡小表join大表,某个key过大表中作为关联条件的字段值为0或空值的较多表中作为关联条件的字段重复值过多表不同数据类型关联产生数据倾斜count distinct 大量相同特殊值数据量过大
倾斜现象
任务进度长时间卡在99% 有的时候甚至100%,查看任务监控页面.发现只有少量的reduce 子任务未完成,因为其处理的数据量和其他reduce 差异过大,单一reduce 记录数与平均记录数差异过大,最长时长远大于平均时长
产生场景
大部分发生在
原创
2021-08-30 10:35:32 ·
483 阅读 ·
0 评论