《SparkSQL 4》--Spark内存分配

本文介绍了Spark内存管理的演变,从1.5版本前的静态内存管理,到1.6版本后的统一内存管理模型。静态管理中,Executor内存分为execution、storage和其他三部分;统一管理下,内存分为预留、用户和Spark内存三块,其中Spark内存用于计算和缓存。在Spark 2.1.0中,预留内存默认为300M,用户内存根据剩余空间按比例分配,而Spark内存则用于Execution和Storage。内存分配时要考虑最小内存限制,并存在Execution Memory抢占Storage Memory的情况。
摘要由CSDN通过智能技术生成

【Spark内存分配详解.pdf】  

   在 Spark 1.5 版本及以前,Spark 采用静态内存管理模型。Spark 1.6 版本推出以后,Spark
   采用了统一内存管理模型。

------静态内存管理:

    Spark  在一个 Executor  中的内存分为三块,一块是 execution  内存,一块是 storage  内存,一块是 other  内存。

  • 1.storage  内存是存储  broadcast , cache ,persist  数据的地方。其中  10% ( 60% 10% )用于防止  OOM 。另外  90% 中的  20% 用于  unroll ,数据展开的(比如说, rdd.perist  让数据序列化持久化,当要读出来的时候就需要反序列化,可以理解为解压,这就需要  unroll  这部分的内存空间了),其余的内存( 90% 80% )用于 RDD  缓存数据和广播变量。
  • execution  内存是执行内存,文档中说  join,aggregate 都在这部分内存中执行, shuffle的数据也会先缓存在这个内存 中,满了再写入磁盘,能够减少  IO 。其实 map  过程也是在这个内存中执行的。
  • other  内存是程序执行时预留给自己的内存,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值