hive执行顺序+优化

最新推荐文章于 2023-03-11 14:21:42 发布

一事无成的温柔

最新推荐文章于 2023-03-11 14:21:42 发布

阅读量611

点赞数

分类专栏： hive 文章标签： hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44131033/article/details/127068448

版权

hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

hive 基于 MapReduce 程序，它的执行顺序决定了 hive 语句的执行顺序
- 执行 from 加载，进行表的查找与加载
- 执行 where 过滤，进行条件过滤与筛选
- 执行 select 查询：进行输出项的筛选
- 执行 group by 分组：描述了分组后需要计算的函数
map 端文件合并：map 端本地溢出写文件的合并操作，每个 map 最终形成一个临时文件，然后按列映射到对应的 reduceReduce 阶段：
- group by：对map端发送过来的数据进行分组并进行计算
- select：最后过滤列用于输出结果
- limit：排序后进行结果输出到HDFS文件
优化重点
- 使用分区剪裁、列剪裁，分区一定要加
- 少用 COUNT DISTINCT，group by 代替 distinct
- 是否存在多对多的关联
- 连接表时使用相同的关键词，这样只会产生一个 job
- 减少每个阶段的数据量，只选出需要的，在 join 表前就进行过滤
- 大表放后面
- 谓词下推：where 谓词逻辑都尽可能提前执行，减少下游处理的数据量
- sort by 代替 order by

一事无成的温柔

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive执行顺序+优化

hive
复制链接

扫一扫

专栏目录

一事无成的温柔 CSDN认证博客专家 CSDN认证企业博客

码龄6年

5: 原创

195万+: 周排名

169万+: 总排名

1291: 访问

: 等级

51: 积分

0: 粉丝

0: 获赞

0: 评论

4: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
hive 1篇
linux 1篇
postgresql 2篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。