Hive 性能调优及策略

十九546

于 2024-06-07 16:33:33 发布

阅读量166

点赞数 2

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/weixin_66092125/article/details/139530375

版权

Hive性能调优方法：

Hive性能调优涉及多方面的优化，包括查询优化、数据存储优化、资源管理优化等。以下是一些常见的性能调优方法：
- 查询优化：
  - 使用分区：将表按分区存储，可以显著减少查询扫描的数据量。例如，按日期分区的日志表。
  - 使用分桶：将表按桶存储，可以提高JOIN和聚合操作的性能。
  - 适当使用索引：在频繁查询的列上创建索引，可以加速查询。
  - 优化JOIN操作：使用MapJoin（小表JOIN大表）或分桶JOIN来提高JOIN操作的性能。
  - 避免笛卡尔积：确保JOIN操作有适当的条件，避免生成笛卡尔积。
- 数据存储优化：
  - 选择适当的文件格式：使用高效的列式存储格式，如ORC、Parquet，可以显著提高查询性能。
  - 数据压缩：使用压缩技术（如Snappy、Zlib等）来减少存储空间和I/O传输时间。
  - 去除小文件：合并小文件，减少NameNode的负载和查询开销。
- 资源管理优化：
  - 调整内存设置：根据集群资源和查询复杂度，调整Mapper和Reducer的内存设置。
  - 并发控制：调整并发查询的数量，避免资源争用。
  - 合理设置YARN资源：为Hive作业分配适当的YARN资源，确保作业的顺利执行。
Hive性能调优策略：

以下是一些具体的性能调优策略和配置参数：
- 使用分区和分桶：

     CREATE TABLE partitioned_table (
       column1 INT,
       column2 STRING
     ) PARTITIONED BY (partition_column DATE);

     CREATE TABLE bucketed_table (
       column1 INT,
       column2 STRING
     ) CLUSTERED BY (column1) INTO 10 BUCKETS;

设置MapJoin：

     SET hive.auto.convert.join = true;

选择高效的文件格式：

     CREATE TABLE orc_table (
       column1 INT,
       column2 STRING
     ) STORED AS ORC;

数据压缩：

     SET hive.exec.compress.output = true;
     SET mapreduce.output.fileoutputformat.compress = true;
     SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

合并小文件：

     SET hive.merge.mapfiles = true;
     SET hive.merge.mapredfiles = true;
     SET hive.merge.size.per.task = 256000000;
     SET hive.merge.smallfiles.avgsize = 16000000;

调整内存设置：

     SET mapreduce.map.memory.mb = 4096;
     SET mapreduce.reduce.memory.mb = 8192;
     SET yarn.scheduler.maximum-allocation-mb = 16384;

并发控制：

     SET hive.exec.parallel = true;
     SET hive.exec.parallel.thread.number = 8;

合理设置YARN资源：

     <property>
       <name>yarn.nodemanager.resource.memory-mb</name>
       <value>16384</value>
     </property>
     <property>
       <name>yarn.scheduler.minimum-allocation-mb</name>
       <value>1024</value>
     </property>
     <property>
       <name>yarn.scheduler.maximum-allocation-mb</name>
       <value>16384</value>
     </property>

优化JOIN操作：

     SELECT /*+ MAPJOIN(small_table) */ a.column1, b.column2
     FROM large_table a
     JOIN small_table b
     ON a.id = b.id;

避免笛卡尔积：
确保JOIN操作有适当的条件：

     SELECT a.column1, b.column2
     FROM table1 a
     JOIN table2 b
     ON a.common_column = b.common_column;

十九546

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive 性能调优及策略

Hive性能调优涉及多方面的优化，包括查询优化、数据存储优化、资源管理优化等。
复制链接

扫一扫