Hive的数据倾斜
Hive的数据倾斜数据倾斜是什么?顾名思义,就是数据分布不均匀,某个节点数据大量集中,而另外的节点数据量却很少。主要表现一个节点的任务很快就跑完了,而另外一个节点的任务很久迟迟不结束,这就是典型的数据分布不均匀。产生数据倾斜的原因1、key 分布不均匀2、业务数据本身的特性3、建表考虑不周全4、某些HQL语句本身就存在数据倾斜空值产生的数据倾斜以一张表为例(数据已经进入各个节点)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0SIvrp4d-16146







