hive spark sql 优化干货篇

最新推荐文章于 2024-05-15 09:30:00 发布

程序猿郭鹏飞神奇经历

最新推荐文章于 2024-05-15 09:30:00 发布

阅读量793

点赞数

分类专栏： hive 文章标签： hive 优化 hive sql 优化 hive 函数使用

本文链接：https://blog.csdn.net/weixin_43947279/article/details/115082377

版权

本文分享了Hive SQL的优化方法，包括参数优化如调整broadcast join的阈值以平衡性能与内存使用，以及sql使用技巧，如一行转多行、多行转一行的操作，利用lateral view和explode进行数据转换，还介绍了时间函数和列转行的集合函数collect_set与collect_list的应用，强调了在特定场景下如何选择合适的函数进行数据处理。

摘要由CSDN通过智能技术生成

干货奉上~ 多多收藏多多转发

参数优化

hive/spark	参数	说明	备注
hive	set hive.exec.dynamic.partition.mode=nonstrict	开启动态分区	xxx
hive	set hive.exec.dynamic.partition=true	开启动态分区	xxx
hive	set hive.exec.max.dynamic.partitions = 1000	分区数	xxx
hive	set hive.exec.parallel = true	无关子查询可以并行	xxx
hive	set hive.auto.convert.join=true	xxx	xxx
hive	set hive.mapjoin.smalltable.filesize=300000000	xxx	xxx
hive	set hive.auto.convert.join.noconditionaltask=true	xxx	xxx
hive	set hive.auto.convert.join.noconditionaltask.size=300000000	xxx	xxx
hive	set mapreduce.reduce.memory.mb=8192	内存相关设置	xxx
hive	set mapreduce.reduce.java.opts=-Xmx7372m	Java 程序可以使用的最大堆内存数	xxx
hive	set hive.exec.compress.intermediate=true	中间过程压缩设置	xxx
hive	set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec	控制hive的查询中间结果是否进行压缩，同上条配置，默认不压缩false	xxx
hive	set mapred.compress.map.output = true	对map任务输出进行压缩	压缩设置
hive	set mapred.output.compress = true	压缩输出	压缩设置
hive	set hive.exec.compres