spark任务参数估算配置

最新推荐文章于 2023-11-23 13:46:20 发布

pete1223

最新推荐文章于 2023-11-23 13:46:20 发布

阅读量2.2k

点赞数

分类专栏： spark相关文章标签： spark big data kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z471365897/article/details/123170027

版权

1.总体原则

1.Yarn配置

Yarn部署在单台服务器128G内存，32个核

如果一个服务器是5个核， executor-cores=5,则理论上num-executor<=6个核。5*6<=32

/hadoop-xxx/yarn-site.xml
修改yarn的运行分配的最大最小内存

yarn.scheduler.minimum-allocation-mb 
yarn.scheduler.maximum-allocation-mb

2.配置参数

driver-memory

driver端的内存消耗主要是以下内容:

1.创建小规模的分布式数据集：使用 parallelize、createDataFrame 等 API 创建数据集

2.收集计算结果：通过 take、show、collect 等算子把结果收集到 Driver 端

根据以上估算即可

下面代码是预估driver端内存的执行计划
```
val df: DataFrame = _
df.cache.count
val plan = df.queryExecution.logical
val estimated: BigInt = spark
.sessionState
.executePlan(plan)
.optimizedPlan
.stats
.sizeInBytes
```
executor-cores

1.每个executor的最大核数，一般在3-6之间比较合适.

2.Executor 中并行计算任务数的上限是

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark任务参数估算配置

1.总体原则1.Yarn配置Yarn部署在单台服务器128G内存，32个核如果一个服务器是5个核， executor-cores=5,则理论上num-executor<=6个核。5*6<=32/hadoop-xxx/yarn-site.xml修改yarn的运行分配的最大最小内存yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb2.配置参数driver-memory d
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。