Hive 数据倾斜问题及解决方案

数据倾斜是指在大数据处理中,数据分布不均导致部分任务处理速度远慢于其他任务,影响整体效率。常见原因包括数据分区不合理、key分布不均和业务数据特性。解决方法包括设置Hive参数如map.aggr和skewindata,优化SQL查询,如小表join大表、处理空值和类型转换,以及使用加盐技术来分散key的聚集。
摘要由CSDN通过智能技术生成

1.什么是数据倾斜

某些地方特别多,某些地方又特别少,导致的在处理数据的时候,有些很快就处理完了,而有些又迟迟未能处理完,导致整体任务最终迟迟无法完成,这种现象就是数据倾斜。

数据倾斜就是由于数据的"分布不平衡",导致mapreduce的任务的多个reduce中,其中有一个或者若干个reduce要处理的数据量特别大,而其他的reduce处理的数据量则比较小,那么这些数据量小的reduce很快就可以完成,而数据量大的则需要很多时间,导致整个任务一直在等它而迟迟无法完成。

跑mapreduce任务时常见的reduce的进度总是卡在99%,点开之后发现只有少量的reduce任务没有完成,这种现象很大可能就是数据倾斜造成的。

实际上,数据倾斜不一定都会出现在reduce阶段,实际上也可能出现在map阶段。因为一般来说在MR任务中,针对每一个文件都会有一个maptask,所以如果某个文件过大,也会导致某个map执行时间过长。

2.数据倾斜的原因

1)数据分区不合理,某个文件数据量过大,导致某个map任务执行时间过长

2) key的分布不均匀或者说某些key太集中。
reduce的数据量大小差异过大,而reduce的数据是分区的结果,分区是对key求hash值,根据hash值决定该key被分到某个分区,进而进入到某个reduce,而如果key很集中或者相同,那么计算得到它们的hash值可能一样,那么就会被分配到同一个reduce,就会造成这个reduce所要处理的数据量过大。

3)业务数据自身的特性。
比如某些业务数据作为key的字段本就很集中,那么结果肯定会导致数据倾斜啊。

4)某些SQL语句本身就有数据倾斜

其实从根本上来说,根本原因就是key的分布不均匀导致的。只不过导致key的分布不均匀的原因有很多,下面会讲到。

3.数据倾斜的解决方案

3.1 设置参数

  • 设置hive.map.aggr=true

    开启map端部分聚合功能,就是将key相同的归到一起,减少数据量,这样就可以相对地减少进入reduce的数据量,在一定程度上可以提高性能,当然,如果数据的减少量微乎其微,那对性能的影响几乎没啥变化。

  • 设置hive.groupby.skewindata=true

    如果发生了数据倾斜就可以通过它来进行负载均衡。当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照Key 分布到 Reduce 中(这个过程是按照key的hash值进行分区的,不同于mr job1的随机分配,这次可以保证相同的Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。所以它主要就是先通过第一个mr job将key随机分配到reduce,使得会造成数据倾斜的key可能被分配到不同的reduce上,从而达到负载均衡的目的。到第二个mr job中,因为第一个mr job已经在reduce中对这些数据进行了部分聚合(就像单词统计的例子,a这个字母在不同的reduce中,已经算出它在每个reduce中的个数,但是最终的总的个数还没算出来,那么就将它传到第二个mr job,这样就可以得到总的单词个数),所以这里直接进行最后的聚合就可以了。

3.2 优化sql

  1. 两表join(小表join大表)

    当进行两表join的时候,发现某个表是属于一个小表,默认是表的数据文件大小小于某个值的时候。那么就可以开启map-side join来进行优化。

  2. 某个表中空值过多

    当一张表中的空值过多的时候,所有的空值都会由一个reduce执行。这时候就可以为每一个空值进行赋值,可以由一个指定的字符串+随机数的方式赋值。

  3. 大表变小表

    当表都是很大的时候,如果我们仅仅是需要用到其中的一小部分数据,那我们可以直接取出来,做一张小表

  4. 不同数据类型关联

场景:用户表中user_id字段为int,log表中user_id字段既有string类型也有int类型。

当按照user_id进行两个表的Join操作时,因为我们在连接时要进行user_id的比较,所以需要user_id的类型都相同,如果我们选择将log表中的String类型转换为int类型,那么就可能会出现这种情况:String类型转换为int类型得到的都是null值(这就是类型转换的问题了,String类型数据转换为int类型会失败,数据丢失,就会赋null值),如果所有的String类型的user_id都变成了null,那么就又出现了集中的key,分区后就又会导致数据倾斜。所以我们进行类型转换时不能选择将String类型转换为int,而应该将int类型转换为String,因为int转换为String不会出问题,int类型原来的值是什么,转换为String后对应的字符串就会是什么,形式没变,只是类型变了而已。

解决方法:把int类型转换成字符串类型

  1. count(distinct xxx)产生数据倾斜

    当某表中的key很集中的时候,使用count(distinct xxx)同样会导致数据倾斜。

    解决方法:
    1)先找出这个集中的key,将其过滤掉,直接计算其他的,再加上它就行了

  2. group by 产生数据倾斜

    这个产生的原因和count(distinct xxx)产生的很类似。

解决策略是对key值进行加盐处理:

核心实现思路就是进行两阶段聚合。第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据,执行sum,count等聚合操作,进行局部聚合,那么局部聚合结果,就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉,就会变成(hello,2)(hello,2),再次进行全局聚合操作,就可以得到最终结果了,比如(hello, 4)。

Hive数据倾斜是指在Hive查询过程中,某些任务的处理时间比其他任务长得多,导致整个查询变得很慢。这通常是由于数据分布不均匀造成的。下面介绍一些常用的Hive数据倾斜解决方法: 1. 动态分区 动态分区是一种Hive优化技术,它可以将数据分布到不同的分区中,以避免数据倾斜。在动态分区中,Hive会根据查询条件自动创建分区,并将数据插入到对应的分区中。这样可以使数据分布更加均匀,减少数据倾斜问题。 2. 桶 桶是一种将数据分布到多个文件中的技术。在Hive中,可以使用桶来将数据分布到多个文件中,以避免数据倾斜。桶的原理是先将数据按照某个字段进行哈希,然后将哈希值相同的数据插入到同一个文件中。这样可以让数据更加均匀地分布到多个文件中,减少数据倾斜问题。 3. 调整并行度 调整并行度是指调整Hive查询的任务数,以避免数据倾斜。当某些任务的处理时间比其他任务长得多时,可以尝试将任务数增加或减少,以重新分配负载。这样可以使查询更加均衡,减少数据倾斜问题。 4. 重构SQL 如果上述方法无法解决数据倾斜问题,可以尝试重构SQL。根据具体的查询需求,可以尝试改变查询条件或者使用其他方式查询数据。这样可以减少查询的数据量,避免数据倾斜问题。 总之,Hive数据倾斜是一个常见的问题,但是通过一些优化技术和合理的调整,可以有效地解决这个问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值