《SparkSQL 4》--Spark内存分配

最新推荐文章于 2023-05-17 11:18:22 发布

yk_3215123

最新推荐文章于 2023-05-17 11:18:22 发布

阅读量604

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yk_3215123/article/details/99230267

版权

本文介绍了Spark内存管理的演变，从1.5版本前的静态内存管理，到1.6版本后的统一内存管理模型。静态管理中，Executor内存分为execution、storage和其他三部分；统一管理下，内存分为预留、用户和Spark内存三块，其中Spark内存用于计算和缓存。在Spark 2.1.0中，预留内存默认为300M，用户内存根据剩余空间按比例分配，而Spark内存则用于Execution和Storage。内存分配时要考虑最小内存限制，并存在Execution Memory抢占Storage Memory的情况。

摘要由CSDN通过智能技术生成

【Spark内存分配详解.pdf】

在 Spark 1.5 版本及以前，Spark 采用静态内存管理模型。Spark 1.6 版本推出以后，Spark
采用了统一内存管理模型。

------静态内存管理：

Spark 在一个 Executor 中的内存分为三块，一块是 execution 内存，一块是 storage 内存，一块是 other 内存。

1.storage 内存是存储 broadcast ， cache ，persist 数据的地方。其中 10% （ 60% 10% ）用于防止 OOM 。另外 90% 中的 20% 用于 unroll ，数据展开的（比如说， rdd.perist 让数据序列化持久化，当要读出来的时候就需要反序列化，可以理解为解压，这就需要 unroll 这部分的内存空间了），其余的内存（ 90% 80% ）用于 RDD 缓存数据和广播变量。
execution 内存是执行内存，文档中说 join，aggregate 都在这部分内存中执行， shuffle的数据也会先缓存在这个内存中，满了再写入磁盘，能够减少 IO 。其实 map 过程也是在这个内存中执行的。
other 内存是程序执行时预留给自己的内存，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。