hive 三排序和优化

最新推荐文章于 2023-12-07 10:43:16 发布

新手路上的程序员

最新推荐文章于 2023-12-07 10:43:16 发布

阅读量249

点赞数

分类专栏： Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yidan7063/article/details/80978813

版权

Hive 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

排序:

order by:

全局排序，执行一个reduce任务

sort by：

在一个reduce任务中的数据是有序的，但是总体数据看是无序的。如果只是执行一个reduce任务和order by是一样的。

通过set mapreduce.job.reduces=num 设置reduce任务的数量。数据的分到不同的reduce默认使用hash算法。

distribute by:

分区排序，指定以什么字段进行分区排序，结合sort by使用。select * from testA distribute by field1 sort by field2.

需要注意的是distribute by需要在sort by之前，这是因为需要先指定分区。

cluster by:

当distribute by和sort by选择的字段是一样的时候，直接使用cluster by效果是一样的。

hive数据压缩:推荐使用snappy 数据存储推荐使用orc(列式存储) 在创建表时可以指定存储格式和压缩方式

STORED AS orc tabproperties(" orc.compress"="SNAPPY")

hive优化:

1.FetchTask 取消某些MR

修改配置文件 hive-site.xml:

<property>
<name>hive.fetch.task.conversion</name>
<value>more</value>
</property>

2.表拆分(子表)

3.分区表，外部表结合使用多级分区 (month,day,hour)

4.数据格式(orc)，数据压缩(snappy)

5.sql优化先filter后join

Reduce Join:

表join发生在Reduce阶段通常是两个较大表join 每个表的数据都是从文件中读取的

Map Join:

表join发生在Map阶段通常是一大一小的表join 大表数据从文件中读取，小表数据从内存中读取通过DistributedCache 类将小表数据缓存到各个节点中

SMB Join:Sort-Merge-Bucket 在大表join时进行优化

在创建表时以jion字段进行分区排序,将排序完成的数据划分到不同的Bucket(分区)中。大表join的时候就会根据对应的Bucket进行join，减少查询对表的次数。官网

6.数据倾斜：group by ，distinct

hive执行计划:

显示执行计划:explain extended select XXX

hive在job中没有依赖关系时，可以设置并行执行:

最多可以并行执行多少个作业：hive.exec.parallel.thread.number 一般在10~20

是否并行执行作业: hive.exec.parallel 默认是false

JVM重用:就是在一个JVM中启动多个MR mapreduce.job.jvm.numtasks 不要超过9个

设置Map数目: hive.merge.size.per.task 通过设置map读取最大文件的值来控制map的数量

设置Reduce数目:mapreduce.job.reduces

通过数据测试每个reduce完成的时间，修改reduce数量。将所有reduce完成任务的时间控制在一定范围内。

推测执行:ApplicationMaster 会通过任务完成的时间来判断是否启动该任务的副本任务，当一个任务完成后，会将这个任务的副本任务都kill 。这样会消耗性能将mapreduce.map.speculative ,hive.mapred.reduce.task.speculative.execution ,

mapreduce.reduce.speculative 都设置为false 默认为true

动态分区:

开启动态分区 hive.exec.dynamic.partition=true 默认是false 更多配置

新手路上的程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

新手路上的程序员 CSDN认证博客专家 CSDN认证企业博客

码龄9年

190: 原创

5万+: 周排名

75万+: 总排名

20万+: 访问

: 等级

3294: 积分

64: 粉丝

49: 获赞

71: 评论

184: 收藏

私信

关注

热门文章

分类专栏

最新评论

Flink idea测试checkPoint
新手路上的程序员: 在本地开发环境中，您可以将Flink作为依赖项添加到您的项目中，并在本地运行Flink作业。这是因为在本地环境中，您使用的是单个计算机上的本地进程，而Flink库已经被打包到您的项目中。但是，在生产环境中，您需要将Flink安装在一个分布式集群中，并且在多个计算节点上运行Flink作业。在这种情况下，您需要安装Flink并配置集群以确保所有节点都能够正确地协同工作。除了安装和配置Flink之外，您还需要确保集群满足Flink的硬件和软件要求，并且能够处理您的作业的计算和存储需求。来自chatGPT的回答
Flink idea测试checkPoint
weixin_45704799: 你好我想问一下为什么flink布到生产上需要安装啊，本地只需要添加依赖就行了，我刚开始使用fink，百度没研究明白
Flink idea测试checkPoint
TTianbo123: 博主的技术面很广哦，厉害👍可以加您微信随时交流吗？非常感谢
Flink 笔记二 Flink的State--状态原理及原理剖析
新手路上的程序员: 你在哪里打印的广播变量 jobManager还是算子里面？
Flink 自定义维表
AnGe9798: 666666666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。