hive spark sql 优化干货篇

本文分享了Hive SQL的优化方法,包括参数优化如调整broadcast join的阈值以平衡性能与内存使用,以及sql使用技巧,如一行转多行、多行转一行的操作,利用lateral view和explode进行数据转换,还介绍了时间函数和列转行的集合函数collect_set与collect_list的应用,强调了在特定场景下如何选择合适的函数进行数据处理。
摘要由CSDN通过智能技术生成

干货奉上~ 多多收藏多多转发

参数优化

hive/spark 参数 说明 备注
hive set hive.exec.dynamic.partition.mode=nonstrict 开启动态分区 xxx
hive set hive.exec.dynamic.partition=true 开启动态分区 xxx
hive set hive.exec.max.dynamic.partitions = 1000 分区数 xxx
hive set hive.exec.parallel = true 无关子查询 可以并行 xxx
hive set hive.auto.convert.join=true xxx xxx
hive set hive.mapjoin.smalltable.filesize=300000000 xxx xxx
hive set hive.auto.convert.join.noconditionaltask=true xxx xxx
hive set hive.auto.convert.join.noconditionaltask.size=300000000 xxx xxx
hive set mapreduce.reduce.memory.mb=8192 内存相关设置 xxx
hive set mapreduce.reduce.java.opts=-Xmx7372m Java 程序可以使用的最大堆内存数 xxx
hive set hive.exec.compress.intermediate=true 中间过程压缩设置 xxx
hive set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec 控制hive的查询中间结果是否进行压缩,同上条配置,默认不压缩false xxx
hive set mapred.compress.map.output = true 对map任务输出进行压缩 压缩设置
hive set mapred.output.compress = true 压缩输出 压缩设置
hive set hive.exec.compres
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值