Hive SQL优化（MR引擎）

最新推荐文章于 2024-07-01 13:18:56 发布

yywdys

最新推荐文章于 2024-07-01 13:18:56 发布

阅读量1.4k

点赞数

文章标签： hive sql hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yywdys/article/details/85753576

版权

hive开启动态分区
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

Hive在基于输入文件大小的前提下将普通JOIN转换成MapJoin，并是否将多个MJ合并成一个hj

hive.auto.convert.join.noconditionaltask;

map join

select /*+ MAPJOIN */ u.user_name from log_user u join clean_log c on c.ip_address = u.ip_address;
在map join的字段前添加 /*+ MAPJOIN */（Hadoop2不需要）

map端部分聚合
set hive.map.aggr = true map端部分聚合，相当于Combiner

group by 优化

set hive.groupby.skewindata=true;
如果group by过程出现倾斜应该设置为true
set hive.groupby.mapaggr.checkinterval=100000;
这个是group的键对应的记录条数超过这个值则会进行优化

   job并行
set hive.exec.parallel=true;

   job合并输入小文件
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

job合并输出小文件
set hive.merge.smallfiles.avgsize=256000000;当输出文件平均大小小于该值，启动新job合并文件

limit
简单查询sql（只包含select）不启动MR引擎

指定reduce数量
set mapreduce.job.reduces = num;
或者set mapred.reduce.tasks=10;

每个reducer计算的文件量大小
set hive.exec.reducers.bytes.per.reducer 默认：1G

拓展：

sql在map reduce端的分布
from where 在map端
group by,sort,order by在reduce端

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive SQL优化（MR引擎）

hive开启动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; Hive在基于输入文件大小的前提下将普通JOIN转换成MapJoin，并是否将多个MJ合并成一个hjhive.auto.convert.join.noconditionaltask;...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。