知行教育项目之Hive参数优化(一)

AIMaynor

已于 2022-11-07 10:05:30 修改

阅读量722

点赞数

分类专栏： # 大数据教育数仓项目文章标签： hive hadoop 大数据

于 2020-12-29 14:50:24 首次发布

本文链接：https://blog.csdn.net/xianyu120/article/details/111888063

版权

大数据教育数仓项目专栏收录该内容

30 篇文章 14 订阅 ¥79.90 ¥99.00

订阅专栏

本文详细介绍了Hive的分区、静态与动态分区的使用，以及Hive的参数优化，包括Yarn的基础配置如内存和CPU的设置。讨论了Hive分桶的概念，强调了分桶在数据采样和查询效率提升中的作用，并探讨了MapJoin和Bucket-MapJoin的优化策略。文章还提到了SMB Join在大表连接中的应用，强调了确保分桶列与排序列一致的重要性。

摘要由CSDN通过智能技术生成

文章目录

Hive分区

我们知道传统的OLTP数据库一般都具有索引和表分区的功能，通过表分区能够在特定的区域检索数据，减少扫描成本，在一定程度上提高查询效率，我们还可以通过建立索引进一步提升查询效率。在Hive数仓中也有索引和分区的概念。

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。
分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。
分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中每个分区对应着表很多的子目录，将所有的数据按照分区列放入到不同的子目录中去。

1.1 为什么要分区

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下，可以通过分区的方法减少每一次扫描总数据量，这种做法可以显著地改善性能。
数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。
比如电影表，分区的依据可以是电影的种类和评级，另外，按照拍摄时间划分可能会得到均匀的结果。
为了达到性能表现的一致性，对不同列的划分应该让数据尽可能均匀分布。最好的情况下，分区的划分条件总是能够对应where语句的部分查询条件，这样才能充

了解本专栏