Hive参数优化和数据倾斜

最新推荐文章于 2024-06-27 21:44:25 发布

星辰安安

最新推荐文章于 2024-06-27 21:44:25 发布

阅读量352

点赞数

分类专栏： hive 文章标签： hive 大数据

本文链接：https://blog.csdn.net/weixin_44624060/article/details/118275391

版权

hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

Hive数据倾斜

原因：

key分布不均匀，数据重复

表现：

任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。

解决方案：

1、从数据源头，业务层面进行优化
2、找到key重复的具体值，进行拆分，hash。异步求和。(随机前缀)

create table data_skew(
    key string
    ,col string
) row format delimited fields terminated by ',';

// 直接分组求count
select key,count(*) from data_skew group by key;


// 使用hash 异步求和
select  key
        ,sum(cnt) as sum_cnt
from(
    select  key
            ,hash_key
            ,count(*) as cnt
    from(
    select  key
            ,col
            ,if(key=='84401' or key == 'null',hash(floor(rand()*6)),0)  as hash_key
    from data_skew 
    ) t1 group by key,hash_key
) tt1 group by tt1.key;

Hive调优

1，分区，分桶,合并小文件
一般是按照业务日期进行分区，每天的数据放在一个分区里
2，一般使用外部表，避免数据误删
3，选择适当的文件压缩格式
4，命名要规范
5，数据分层，表分离，但是也不要分的太散
6.分区裁剪 where过滤，先过滤，后join
7.适当的子查询
8.mapjoin（1.2以后自动默认启动mapjoin）
左连的时候，大表在左边，小表在右边。
9.参数调优

set mapred.map.tashs=8（设置maptask数量）
set mapred.reduce.tasks=8	（设置reducetask数量）
set hive.exec.reducers.max=1009  （设置reduce最大数量）
set hive.map.aggr = true （hive2默认开启,Map 端部分聚合，相当于Combiner）
set hive.groupby.skewindata=true(设置数据倾斜时负载均衡)
set hive.fetch.task.conversion=more(不走mr)
set hive.exdc.parallel = true(并行执行)
set hive.exec.parallel.thresd.number=8(设置并行执行数)
set mapred.job.reuse.jvm.num.tasks=8(jvm重用)
set hive.merge.mapfiles=true(合并map端小文件)
set hive.merge.mapredfiles=true(合并reduce端小文件)