Hive/HiveSQL常用优化方法全面总结

本文详细总结了Hive的优化方法,包括列裁剪和分区裁剪、谓词下推、使用sort by替换order by、group by与distinct优化、join优化策略、处理数据倾斜以及MapReduce调优技巧。通过对HiveSQL语句的优化和Hive配置的调整,可以显著提升大数据查询效率。
摘要由CSDN通过智能技术生成

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。

目录

  • 列裁剪和分区裁剪
  • 谓词下推
  • sort by代替order by
  • group by代替distinct
  • group by配置调整
  • map端预聚合
  • 倾斜均衡配置项
  • join基础优化
  • build table(小表)前置
  • 多表join时key相同
  • 利用map join特性
  • 分桶表map join
  • 倾斜均衡配置项
  • 优化SQL处理join数据倾斜
  • 空值或无意义值
  • 单独处理倾斜key
  • 不同数据类型
  • build table过大
  • MapReduce优化
  • 调整mapper数
  • 调整reducer数
  • 合并小文件
  • 启用压缩
  • JVM重用
  • 并行执行与本地模式
  • 严格模式
  • 采用合适的存储格式

列裁剪和分区裁剪

最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我们的日历记录表为例:

  •  
select uid,event_type,record_datafrom calendar_record_logwhere pt_date >= 20190201 and pt_date <= 20190224and status = 0;

当列很多或者数据量很大时,如果select *或者不指定分区,全列扫描和全表扫描效率都很低。

Hive中与列裁剪优化相关的配置项是hive.optimize.cp,与分区裁剪优化相关的则是hive.optimize.pruner,默认都是true。在HiveSQL解析阶段对应的则是ColumnPruner逻辑优化器。

谓词下推

在关系型数据库如MySQL中,也有谓词下推(Predicate Pushdown,PPD)的概念。它就是将SQL语句中的where谓词逻辑都尽可能提前执行,减少下游处理的数据量。

例如以下HiveSQL语句:

  •  
select a.uid,a.event_type,b.topic_id,b.titlefrom calendar_record_log aleft outer join (select uid,topic_id,title from forum_topicwhere pt_date = 20190224 and length(content) >= 100) b on a.uid = b.uidwhere a.pt_date = 20190224 and status = 0;

对forum_topic做过滤的where语句写在子查询内部,而不是外部。Hive中有谓词下推优化的配置项hive.optimize.ppd,默认值true,与它对应的逻辑优化器是PredicatePushDown。该优化器就是将OperatorTree中的FilterOperator向上提,见下图。

Hive/HiveSQL常用优化方法全面总结

 

图来自https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html

上面的链接中是一篇讲解HiveSQL解析与执行过程的好文章,前文提到的优化器、OperatorTree等概念在其中也有详细的解释,非常推荐。

sort by代替order by

HiveSQL中的order by与其他SQL方言中的功能一样,就是将结果按某字段全局排序,这会导致所有map端数据都进入一个reducer中,在数据量大时可能会长时间计算不完。

如果使用sort by,那么还是会视情况启动多个reducer进行排序,并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key,

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hive SQL 优化是提高查询性能和执行效率的重要步骤。以下是一些常见的 Hive SQL 优化技巧: 1. 分区和分桶:通过在表中使用分区和分桶,可以减少查询的数据量,提高查询效率。 2. 数据压缩:使用压缩格式(如Snappy、Gzip)来减少存储空间,并提高数据读取速度。 3. 合理设置并行度:根据集群的规模和性能,合理设置并行度参数,如mapreduce.job.reduces、hive.exec.reducers.bytes.per.reducer等。 4. 使用索引:对于经常被查询的列,可以创建相应的索引来加速查询。 5. 避免全表扫描:尽量避免使用SELECT *,而是只选择需要的列,减少不必要的数据传输。 6. 数据倾斜处理:当某个列或分区的数据量远远大于其他列或分区时,可以考虑使用一些技术手段(如动态分区、map-side join)来解决数据倾斜的问题。 7. 使用合适的数据类型:选择合适的数据类型可以减少存储空间,提高查询性能。 8. 预热缓存:对于频繁执行的查询,可以通过预热缓存来避免每次都重新计算。 9. 动态分区:对于分区表,可以使用动态分区插入数据,减少数据倾斜和优化查询性能。 10. 优化查询语句:合理使用JOIN、GROUP BY、ORDER BY等操作,避免不必要的数据重复和排序操作。 请注意,具体的优化策略需要根据实际情况来定,可以通过观察查询执行计划、使用Hive性能调优工具等方法来进行优化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值