![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库之Hive
文章平均质量分 90
数据仓库hive开发的各种专项问题总结
大数据松松
越努力越幸运
展开
-
HiveSQL经典面试题(建议点赞收藏)
【代码】HiveSQL经典题目(2024持续补充)原创 2024-02-07 15:48:44 · 2628 阅读 · 5 评论 -
SQL专题【开窗函数】
开窗函数语法:【函数】over(partition by [字段名1] order by [字段名2]),两个关键字 partition by和order by可以只出现一个。开窗函数跟聚合函数的区别在于:聚合函数返回一条;开窗函数不改变记录条数,更像是在明细数据后面打了一个聚合的标签。原创 2024-02-02 15:16:31 · 367 阅读 · 0 评论 -
数据仓库【SQL优化】
每个sqlboy工作一段时间后都会面临这一个能力提升问题--Sql优化。本文通过更通俗易懂的话术讲解sql优化的策略内容。提供一个从业务需求探查到最终上线全流程的sql优化方案,如有缺失,希望大家多多交流补充。原创 2024-02-01 13:54:30 · 1384 阅读 · 0 评论 -
Hive【内部表、外部表、临时表、分区表、分桶表】【总结】
分区提供了一个隔离数据和优化查询的可行性方案,但是并非所有的数据集都可以形成合理的分区,分区的数量也不是越多越好,过多的分区条件可能导致很多分区上没有数据。分桶表会将指定的列的值进行哈希散列,并对bucket(桶数量)取余,然后存储到对应的bucket中。分区表和分桶表的本质都是将数据按照不同粒度进行拆分,从而使得在查询的时候不必扫描全表,只需要扫描对应的分区或分桶,从而提升查询的效率。如果查询的where子句中包含分区条件,则直接从该分区查找,而不是扫描整个目录,合理的分区可以极大的提高查询速度和性能。原创 2024-02-19 11:45:21 · 2202 阅读 · 0 评论