Hive任务参数优化建议

最新推荐文章于 2024-05-03 17:27:06 发布

desYang

最新推荐文章于 2024-05-03 17:27:06 发布

阅读量615

点赞数

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/ygyblue2/article/details/131782360

版权

-- 优化建议

set spark.executor.memory=24g; -- 内存分配

set spark.driver.memory=32g; -- 堆内存扩大

set spark.vcore.boost.ratio=1;

set spark.driver.cores=4; -- 单个core执行的任务数，默认是1

set spark.sql.fragPartition.maxShuffleBytes=1073741824;

set spark.yarn.batch.smart.heuristic=125495624;

set spark.sql.files.maxPartitionBytes=8589934592; -- 默认128M，调小可提高map任务数（最后要合并小文件）

set spark.sql.parquet.adaptiveFileSplit=true;

set spark.sql.fragPartition.parquet.fast.mode.enabled=true;

set spark.sql.fragPartition.compactEnabled=true;

set spark.maxRemoteBlockSizeFetchToMem=268435456; -- 默认512M，为了避免占用太多内存的巨大请求、在较小的块上使用太多的内存

set spark.sql.fragPartition.skip.failure=true;

set spark.driver.memoryOverhead=4096; --允许使用对外内存

set spark.sql.adaptive.maxNumPostShufflePartitions=125; -- 优化运行速度，并减小存储减少CPU浪费

set spark.sql.fragPartition.threshold=268435456;

set spark.sql.orc.adaptiveFileSplit=true;

set spark.executor.memoryOverhead=4096; -- 最大值，允许executor使用堆外内存

set spark.sql.fragPartition.expectedBytes=268435456;

优惠劵

desYang

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive任务参数优化建议

- 默认512M，为了避免占用太多内存的巨大请求、在较小的块上使用太多的内存。-- 最大值，允许executor使用堆外内存。--允许使用对外内存。
复制链接

扫一扫

Hive脚本任务参数优化配置.doc

03-05

Hive脚本任务参数优化配置

Spark on Yarn 最佳运行参数调优-计算方式

码上中年的博客

11-20

1336

参与评论您还未登录，请先登录后发表或查看评论

spark优化（二）--参数调优

YYLong0的博客

02-20

1159

spark参数

使用MapR集群的Caffe分布式深度学习

danpu0978的博客

04-26

150

我们已经在运行Spark 1.5.2的5节点MapR 5.1集群上对CaffeOnSpark进行了试验，并将在此博客文章中分享我们的经验，困难和解决方案。深度学习和Caffe 深度学习近来受到了广泛关注，AlphaGo在一款被认为非常复杂以至于仅仅在五年前就已经无法使用计算机的游戏中击败了世界顶级玩家。深度学习不仅在Go上击败了人类，而且几乎在所有Atari电脑游戏中都击败了人类。 ...

Spark Yarn API 在线任务提交

he329867402的专栏

11-22

3005

针对在进行spark任务在线提交过程中遇到的问题和解决方案的一点分享。

数据开发中的资源管理优化（spark运行）

linken01的博客

02-08

541

介绍数据开发任务中如何调节CPU和内存。

spark的资源调整参数

qq_43688472的博客

09-19

627

spark.executor.memoryOverhead 每个executor的堆外内存大小，堆外内存主要用于数据IO，对于报堆外OOM的任务要适当调大，单位Mb，与之配合要调大executor JVM参数，例如：set spark.executor.memoryOverhead=3072。–该功能只能控制生成的文件大小尽量接近spark.merge.files.byBytes.fileBytes，且有一定的性能损耗，需根据实测情况选择使用。–输出文件合并 byBytes,该功能会生成两个stage，

Spark 在 Yarn 上运行 Spark 应用程序

SmartSi

07-29

1671

在Yarn上运行Spark提供了与其他Hadoop组件最紧密的集成，也是在已有Hadoop集群上使用Spark的最简单的方法。为了在Yarn上运行Spark应用程序，Spark提供了两种部署模式Client模式和Cluster模式。Client模式的Driver在客户端运行，而Cluster模式的Driver在Yarn的ApplicationMaster上运行。...

Apache Spark Jobs 性能调优（二）

sdujava2011

01-29

699

Apache Spark Jobs 性能调优（二）调试资源分配调试并发压缩你的数据结构数据格式在这篇文章中，首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面，你们将会了解到资源调优，或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度，这是job性能中最难也是最重要的参数。最后，你将了解到

Spark的Yarn模式及其案例

Faith_xzc

08-11

2797

目录基本概念Yarn模式搭建1. 解压缩文件2.修改配置文件启动集群测试Spark中examples案例1. 提交应用2.Web 页面查看日志配置历史服务器1.具体步骤2.重新提交应用3.Web 页面查看日志基本概念独立部署（Standalone）模式由Spark 自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是也要记住，Spark 主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱

尚gg大数据项目实战电商数仓系统开发教程.txt

07-24

140_CDH数仓_Oozie任务编写及运行.avi 141_CDH数仓_即席查询数仓搭建Impala.avi 142_CDH数仓_Spark安装及总结.avi 14_数仓采集_事件日志数据（下）.avi 15_数仓采集_日志生成代码编写.avi4 |* G) Z3 J4 ]/ b9 z$ @ ...

DataX Web分布式数据同步工具-其他

06-12

36、RDBMS数据源增量抽取增加主键自增方式并优化页面参数配置； 37、更换MongoDB数据源连接方式,重构HBase数据源JSON构建模块； 38、脚本类型任务增加停止功能； 39、rdbms json构建增加postSql，并支持构建多个...

大数据学习计划.pdf

12-24

2、通过对 Linux ⽂件系统、（⼤数据学习群142974151】内核参数、内存结构、以及 Java 虚拟机等相关知识的学习，为后续学习分布式⽂件系统， Hadoop 集群优化扫清操作系统层⾯知识的障碍 2 Hadoop 由许多元素...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar )

12-08

技术点83　解决任务的JVM 启动参数 13．2．4　高效调试的编码准则技术点84　调试和错误处理 13．3　MapReduce 陷阱技术点85　MapReduce 反模式 13．4　本章小结附录A　相关技术附录B　Hadoop 内置的数据导入导出...

MySQL存储引擎的选择与深度解析：InnoDB vs MyISAM，以及Memory和Archive

最新发布

Dxy1239310216的博客

05-03

204

MyISAM的读取速度通常比InnoDB快，但在写入大量数据时可能会变慢，因为它不支持行级锁定，而是使用表级锁定。本文将深入探讨这些存储引擎的区别，并提供如何选择合适的存储引擎的指导。通过了解每种存储引擎的特点和优势，并根据应用的实际需求进行选择，可以优化数据库的性能和可靠性。：如果需要存储大量的归档数据，并且只需要进行INSERT和SELECT操作，那么Archive存储引擎是一个很好的选择。选择合适的存储引擎需要考虑多个因素，包括数据的性质、访问模式、并发量、是否需要事务支持等。

大数据第五天(操作hive的方式)

weixin_51885039的博客

04-23

1157

操作hive的方式

Spark 为什么比 Hive 快

JIE的博客

04-26

993

由于 MapReduce 的特性，Hive 在处理大规模数据时可能会出现较高的延迟，因为它需要频繁地将数据写入和读取磁盘，Shuffle 操作会导致花费的时间代价比较大。那么在稳定性方面，Hive 优于 Spark，这是因为在 MR 任务中，数据总是按照块分片进行处理，每块数据都可以独立地读取和处理，并不需要将所有数据都加载到内存中，因此它对内存的需求远低于Spark。由于 Spark 使用的是内存计算，在处理大规模的数据时，需要足够的内存资源，否则可能会发生 OOM 或者导致计算速度非常缓慢。

导出 CDH 中各组件（HDFS、Hive、Impala、Kafka、Kudu、YARN和Zookeeper）指标到 Prometheus

zcs2312852665的博客

05-03

551

本教程介绍了如何提取大数据集群中不同组件的指标信息，涵盖了HDFS、Hive、Impala、Kafka、Kudu、YARN和Zookeeper等组件，通过配置环境变量以启用JMX监控，并展示了具体操作步骤和配置方法。本教程详细介绍了如何使用JMX Prometheus Exporter工具来提取各个大数据组件的指标信息，并将其暴露给Prometheus进行监控。通过学习本教程，您可以轻松设置并收集这些指标数据，并利用可视化工具展示和分析它们。希望本教程对您有所帮助！如有任何疑问或问题，请随时在评论区留言。

HIVE基本数据类型

2301_77836489的博客

05-03

343

HIVE基本数据类型

电商数仓 hive的优化以及优化参数

06-10

针对电商数仓的Hive优化，可以从以下几个方面入手： 1. 数据分区：对于大规模数据的查询，使用分区表可以大幅度提高查询效率。可以按照日期、地域等维度进行分区。 2. 压缩存储：在Hive中，使用压缩存储可以减小数据的存储空间，同时也能提高查询效率。可以使用Gzip、Bzip2、Snappy等压缩方式。 3. 数据倾斜处理：在实际场景中，可能会出现某些字段的值非常集中，导致查询时某些节点负载过重，出现数据倾斜。可以采用一些技术手段，如随机数、哈希函数等进行数据均衡。 4. 动态分区：动态分区可以在查询的同时动态创建分区，避免手动创建分区的麻烦。 5. 合理设置参数：Hive的性能与参数设置密切相关，如MapReduce任务并行度、内存大小、IO缓存等。合理设置这些参数可以提高查询效率。具体的优化参数包括： - hive.exec.dynamic.partition.mode：设置动态分区模式，可以设置为nonstrict或strict。 - hive.exec.dynamic.partition：是否允许动态分区，默认为true。 - hive.exec.max.dynamic.partitions：设置动态分区最大值。 - hive.exec.max.dynamic.partitions.pernode：每个节点的最大动态分区数。 - hive.auto.convert.join：是否开启自动转换Join，可以提高Join的效率。 - hive.optimize.bucketmapjoin.sortedmerge：是否开启Bucket Map Join Sorted Merge。 - hive.exec.parallel：设置MapReduce任务并行度。 - hive.vectorized.execution.enabled：是否开启矢量化查询。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交