如何设置driver,executor的内存

最新推荐文章于 2022-11-14 14:25:05 发布

宝哥大数据

最新推荐文章于 2022-11-14 14:25:05 发布

阅读量4.8k

点赞数

分类专栏： # spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuxintdrh/article/details/83713613

版权

spark 专栏收录该内容

145 篇文章 14 订阅

订阅专栏

参考：
https://blog.csdn.net/jhk9898/article/details/55101225?locationNum=2&fps=1 这个不错
https://blog.csdn.net/hammertank/article/details/48346285
https://blog.csdn.net/u013487548/article/details/80445055
https://blog.csdn.net/lingbo229/article/details/80914283

一个Executor对应一个JVM进程。

从Spark的角度看，Executor占用的内存分为两部分：ExecutorMemory和MemoryOverhead

一、ExecutorMemory

ExecutorMemory为JVM进程的Java堆区域。大小通过属性`spark.executor.memory`设置。也可以在spark-submit命令时用参数`--executor-memory`设置。

二、MemeoryOverhead

MemoryOverhead是JVM进程中除Java堆以外占用的空间大小，包括方法区（永久代）、Java虚拟机栈、本地方法栈、JVM进程本身所用的内存、直接内存（Direct Memory）等。通过spark.yarn.executor.memoryOverhead设置，单位MB。

三、Spark统一内存管理

在这里插入图片描述

从上图可知主要包含三个部分

3.1、Reserved Memory

这部分内存是预留给系统使用，是固定不变的。

3.2、User Memory

默认为(“Java Heap” – Reserved Memory ) * 0.25。分配Spark Memory剩余的内存，用户可以根据需要使用。可以存储RDD transformations需要的数据结构，例如，重写spark aggregation,使用mapPartition transformation，通过hash table来实现aggregation，这样使用的就是User Memory。

3.3、Spark Memeory

包含Storage Memeory 和 Excution Memory两部分，两个边界由spark.memory.storageFraction设定，默认为0.5。但是两部分可以动态变化，相互之间可以借用，如果一方使用完，可以向另一方借用。

Storage Memeory是用于缓存rdd数据，广播变量。
Excution Memory存储Spark task执行过程中需要的对象，例如，Shuffle中map端中间数据的存储，以及hash aggregation中的hash table。如果内存不足，该空间也容许spill到磁盘。

四、相关影响的参数

4.1、 yarn.scheduler.maximum-allocation-mb

这个参数表示每个container能够申请到的最大内存，一般是集群统一配置。Spark中的executor进程是跑在container中，所以container的最大内存会直接影响到executor的最大可用内存。当你设置一个比较大的内存时，日志中会报错，同时会打印这个参数的值。
所以executor的总内存必须满足:

	executorMem< yarn.scheduler.maximum-allocation-mb

宝哥大数据

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。