hive 调优----参数

最新推荐文章于 2024-05-23 13:36:09 发布

熊猫姐姐90

最新推荐文章于 2024-05-23 13:36:09 发布

阅读量730

点赞数

分类专栏： hive 文章标签： hive big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanyuan___/article/details/120014413

版权

hive 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

1、分区设置

set hive.exec.dynamic.partition = False

设置 True 表示开启动态分区功能。

set hive.exec.dynamic.partition.mode = strict ;

设置成 nonstrict 表示允许所有分区都是动态的。

set hive.exec.max.dynamic.partitions.pernode = 100 ;

每个mapper 或reducer 可以创建的最大动态分区个数。如果每个mapper或reducer 尝试创建大于这个值的分区的话则会跑出一个致命错误信息。

2、job设置

set hive.exec.parallel = False;

控制在同一个sql中的不同job是否可以同时运行，默认为FALSE，当参数为false的时候，job是按照顺序执行。

当为True时，子查询中并无关系的sql可以并行。在资源充足的时候hive.exec.parallel会让那些存在并发job的sql运行得更快,但同时消耗更多的资源

在共享集群中，需要注意下，如果 job 中并行阶段增多，那么集群利用率就会增加。

set hive.exec.parallel.thread.number = 8;

控制对于同一个sql来说同时可以运行的job的最大值,该参数默认为8.此时最大可以同时运行8个job.

set hive.map.aggr=True;

在mapper端部分聚合，相当于Combiner， Map-Side聚合（一般在聚合函数sum,count时使用）。

set hive.groupby.skewindata=True;

当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作.

set hive.groupby.mapaggr.checkinterval=100000;

这个是group的键对应的记录条数超过这个值则会进行分拆,值根据具体数据量设置。

set hive.merge.mapfiles = true;

是否和并 Map 输出文件，默认为 True

set hive.merge.mapredfiles = False;

是否合并 Reduce 输出文件，默认为 False

set hive.merge.size.per.task = 256*1000*1000;

合并文件的大小

set hive.mapred.reduce.tasks.speculative.execution = True;

reducer阶段是否开启推测执行

所谓的推测执行，就是当所有task都开始运行之后，Job Tracker会统计所有任务的平均进度，如果某个task所在的task node机器配置比较低或者CPU load很高（原因很多），导致任务执行比总体任务的平均执行要慢，此时Job Tracker会启动一个新的任务（duplicate task），原有任务和新任务哪个先执行完就把另外一个kill掉，这也是我们经常在Job Tracker页面看到任务执行成功，但是总有些任务被kill，就是这个原因。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive 调优----参数

1、分区设置hive.exec.dynamic.partition = False设置 True 表示开启动态分区功能。hive.exec.dynamic.partition.mode = strict ;设置成 nonstrict 表示允许所有分区都是动态的。hive.exec.max.dynamic.partitions.pernode = 100 ;每个mapper 或reducer 可以创建的最大动态分区个数。如果每个mapper或reducer 尝试创建大于这个
复制链接

扫一扫

专栏目录

熊猫姐姐90 CSDN认证博客专家 CSDN认证企业博客

码龄6年

52: 原创

12万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

603: 积分

140: 粉丝

74: 获赞

2: 评论

83: 收藏

私信

关注

热门文章

分类专栏

数据库 1篇
算法 2篇
机器学习 4篇
hive 14篇
ClickHouse 4篇
数据架构 1篇
Hadoop 4篇
商品类目 1篇

最新评论

python计算两个日期间的工作日天数
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python计算两个日期间的工作日天数
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。