sql常设置的参数

最新推荐文章于 2024-05-07 22:53:47 发布

旅途心情

最新推荐文章于 2024-05-07 22:53:47 发布

阅读量1.3k

点赞数

分类专栏： hive 文章标签： hive sql big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaomengzhang/article/details/120492910

版权

hive 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

（1）hive-sql

参数设置：

set tez.queue.name=${USER_QUEUE};

set hive.execution.engine=tez;

--要求不检查笛卡尔积

set hive.strict.checks.cartesian.product=false

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.dynamic.partitions.pernode=100000;
set hive.optimize.sort.dynamic.partition=true;

--并行度

set hive.exec.parallel=true

set hive.exec.parallel.thread.number=16

--合并小文件，减少map数

set mapred.max.split.size=100000000;

set mapred.min.split.size.per.node=100000000;

set mapred.min.split.size.per.rack=100000000;

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

--设置map端输出进行合并，默认为true

set hive.merge.mapfiles = true

--设置reduce端输出进行合并，默认为false

set hive.merge.mapredfiles = true

--设置合并文件的大小

set hive.merge.size.per.task = 256*1000*1000

--当输出文件的平均大小小于该值时，启动一个独立的MapReduce任务进行文件merge。

set hive.merge.smallfiles.avgsize=16000000

--防止数据倾斜，Map 端进行聚合操作

set hive.map.aggr=true;

--有数据倾斜的时候进行负载均衡

set hive.groupby.skewindata=true;

set spark.reducer.maxSizeInFlight=96m;
set mapreduce.reduce.memory.mb=5120;
set mapreduce.reduce.java.opts=-xmx4096m;

（2）spark-sql

查看 spark版本

spark-submit --version

Spark 配置 (apachecn.org)http://spark.apachecn.org/#/docs/20spark-submit 设置参数

spark-shell 设置参数

(1条消息) Spark处理百亿规模数据优化实战_aijiudu的博客-CSDN博客_spark处理大量数据https://blog.csdn.net/aijiudu/article/details/75206590

--设置网络延时时间

set spark.network.timeout=300;

--并行度

set spark.sql.shuffle.partitions=600;

set spark.default.parallelism=600

--动态调整资源

set spark.sql.adaptive.enabled=true;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=134217728b;

--动态分区

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.optimize.sort.dynamic.partition=true;

set mapreduce.job.reduces=16;

--任务内存参数配置

set spark.memory.fraction=0.4

--慢任务推测参数配置:

set spark.speculation=true

set spark.speculation.interval=60s

set spark.speculation.multiplier=1.3

set spark.speculation.quantile=0.99

--产出文件数量进行动态调整，让文件大小尽量在200M~256M左右

set spark.dynamicAllocation.minExecutors=1000set spark.dynamicAllocation.maxExecutors=1600

--Shuffle参数配置

【Spark篇】---Spark中内存管理和Shuffle参数调优 - 云+社区 - 腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1337636

该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小

set spark.shuffle.file.buffer=128k;

设置shuffle read task的buffer缓冲大小，而这个buffer缓冲决定了每次能够拉取多少数据

set spark.reducer.maxSizeInFlight=96m;

特别耗时的shuffle操作的作业，建议增加重试最大次数（比如60次）

set spark.shuffle.io.maxRetries=60;

每次重试拉取数据的等待间隔,大间隔时长，以增加shuffle操作的稳定性

set spark.shuffle.io.retryWait=60s;

分配给shuffle read task进行聚合操作的内存比例

set spark.shuffle.memoryFraction=0.4;

如果使用HashShuffleManager，该参数有效。如果设置为true，那么就会开启consolidate机制，会大幅度合并shuffle write的输出文件

set spark.shffle.manager=hash;

set spark.shuffle.consolidateFiles=true;

set spark.sql.files.maxPartitionBytes=134217728;

set parquet.block.size=33554432;

-- 需为true，否则hive无法识别spark-sql写的parquet
set spark.sql.parquet.writeLegacyFormat=true;

引入外部文件至hive的lib包：

add file hive的lib包路径/xx.json;

add jar hive的lib包路径/xx.jar;

创建临时函数：

create temporary function 函数名 as ‘jar包的mian方法路径’

create temporary function A as 'com.XX.XX.hive.udf.ClearCsv';

持续更新中。。。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sql常设置的参数

参数设置：set tez.queue.name=${USER_QUEUE};set hive.execution.engine=tez;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=100000;set hive.exec.max.dynamic.partitions.pernode=1000
复制链接

扫一扫

专栏目录

旅途心情 CSDN认证博客专家 CSDN认证企业博客

码龄5年

26: 原创

57万+: 周排名

184万+: 总排名

2万+: 访问

: 等级

288: 积分

4: 粉丝

6: 获赞

3: 评论

33: 收藏

私信

关注

热门文章

分类专栏

pandas 1篇
python 14篇
numpy 5篇
shell 2篇
机器学习
sql 1篇
hive 8篇
java 1篇
spark 1篇

最新评论

（14）pandas基础1：Series和DataFrame模块
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客对我们了解pandas基础模块有很大帮助。我觉得下一篇博客可以继续深入探讨pandas模块的高级应用，比如数据清洗、数据分析等方面，这样的技术文章对其他用户也会有很大帮助。相信会有更多读者期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
（7）python 之文件操作（open函数）与Unicode编码
小河不露尖尖角: encode编码，decode解码，翻译过来是这样
（7）python 之文件操作（open函数）与Unicode编码
qq_43478653: 引用「字符串解密」 encode才是编码？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。