hive sql的优化

最新推荐文章于 2024-05-11 09:37:40 发布

pengda555

最新推荐文章于 2024-05-11 09:37:40 发布

阅读量310

点赞数

分类专栏： hive sql优化文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48774808/article/details/121635745

版权

优化的根本思想：

尽早尽量过滤数据，减少每个阶段的数据量
减少job数
解决数据倾斜问题

尽早尽量过滤数据，减少每个阶段的数据量

1.列裁剪：

例如某表有

a,b,c,d,e五个字段，但是我们只需要a和b，那么请用select a,b from table 而不是select * from table

2.分区裁剪：

在查询的过程中减少不必要的分区，即尽量指定分区

3.利用hive的优化机制减少job数：

不论是外关联outer join还是内关联inner join，如果join的key相同，不管有多少表，都会合并为一个MapReduce任务：

4.善用multi-insert:

5.善用union all:

不同表的union all相当于multi inputs，同一表的union all相当于map一次输出多条

6.避免笛卡尔积：关联的时候一定要写关联条件

7.join前过滤掉不需要的数据

8.小表放前大表放后

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive sql的优化

优化的根本思想：尽早尽量过滤数据，减少每个阶段的数据量减少job数解决数据倾斜问题尽早尽量过滤数据，减少每个阶段的数据量1.列裁剪：例如某表有a,b,c,d,e五个字段，但是我们只需要a和b，那么请用select a,b from table 而不是select * from table2.分区裁剪：在查询的过程中减少不必要的分区，即尽量指定分区3.利用hive的优化机制减少job数：不论是外关联outer join还是内关联inner join，如果join的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。