如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory

最新推荐文章于 2024-07-25 10:42:32 发布

Lestat.Z.

最新推荐文章于 2024-07-25 10:42:32 发布

阅读量1.1w

点赞数 5

分类专栏： Spark Spark学习随笔文章标签： spark executor tunning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yolohohohoho/article/details/88056381

版权

本文讨论了为Spark应用程序分配executor数量、核心和内存的最佳实践。考虑到Hadoop/Yarn守护进程、ApplicationMaster资源需求、HDFS吞吐量以及内存开销。分析了小、大、优化三种executor配置的优劣，建议每个executor分配5个核心，以平衡资源利用和性能。

摘要由CSDN通过智能技术生成

文章目录

前言

在我们提交spark程序时，应该如何为Spark集群配置–num-executors， - executor-memory和–execuor-cores 呢？

一些资源参数设置的基本知识

Hadoop / Yarn / OS Deamons
当我们使用像Yarn这样的集群管理器运行spark应用程序时，会有几个守护进程在后台运行，如NameNode，Secondary NameNode，DataNode，JobTracker和TaskTracker等。因此，在指定num-executors时，我们需要确保为这些守护进程留下足够的核心（至少每个节点约1 CPU核）以便顺利运行。
Yarn ApplicationMaster（AM）
ApplicationMaster负责协调来自ResourceManager的资源，并与NodeManagers一起执行container并监控其资源消耗。如果我们在YARN上运行Spark，那么我们需要预估运行AM所需要的资源（至少1024MB和1 CPU核）。
HDFS吞吐量
HDFS客户端遇到大量并发线程会出现一些bug。一般来说，每个executors最多可以实现5个任务的完全写入吞吐量，因此最好将每个executors的核心数保持在该数量之下。
MemoryOverhead
JVM还需要一些off heap的内存，请参考下图中描绘的Spark和YARN中内存属性的层次结构，

test

Credit: https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/

简单来说，有以下两个公式：

每个executor从YARN请求的内存 = spark-executor-memory + spark.yarn.executor.memoryOverhead

最低0.47元/天解锁文章

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。