SparkSql内存专题——Spark on YARN Executor整体内存理解

最新推荐文章于 2023-06-27 15:59:10 发布

小萝卜算子

最新推荐文章于 2023-06-27 15:59:10 发布

阅读量920

点赞数 3

分类专栏： spark源码精读分析系列文章标签： spark jvm java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoluobutou/article/details/129416657

版权

当我们写sql实现数据需求的时候，得多提醒自己，sql里的每个字段，

不管是聚合、还是join；

不管它们占的空间有多大；

不管它们是int类型的，还是一个大json串；

不管实现整个聚合的计算用的是HashAgg 、是ObjectHashAgg 或者是SortAgg；

不管实现整个JOIN的计算用的是SortMergeJoin 、是ShuffleHashJoin 、还是BroadcastHashJoin...

sql中涉及到的数据，都是要在内存里走一趟的，所以对内存的理解是一个非常重要的事情，理解的越透彻，我们在解决实际问题时，就会越清晰。

之前总是在学习sparksql的源码，接下来，打算从内存的角度，做一系列的总结，加深对spark的理解，毕竟未来几年，还是要继续和spark打交道。

内存系列会涉及到Executor整体内存的构成、我们平时常用的窗口函数、聚合函数、JOIN等，内容大概如下：

Spark on YARN Executor整体内存理解及Trouble Shooting
窗口函数内存使用理解，年前貌似写过一篇窗口函数为什么更容易出现性能问题？——一个优化案例
聚合函数内存使用理解
JOIN内存使用理解

那下面就开始吧

1、Executor内存构成

从代码里看到，Executor内存组成如果下图：

第一层，整个Executor是YARN的一个container，而

单个container可申请的最大内存受到yarn.scheduler.maximum-allocation-mb参数限制，所以Executor的总内存受到yarn.scheduler.maximum-allocation-mb参数控制

Executor中的内存分为两个部分，一部分被JVM管理，我们标记为JVM（堆内）；另一部分不被JVM管理，我们标记为OUT OF JVM（堆外）

先说OUT OF JVM吧~

spark有这么多种堆外的参数，一开始，我也疑惑，它们的区别是什么？各自的作用又是啥？该怎么理解呢？

1.1 【堆外】OUT OF JVM

按上图，从右往左

1.1.1 【基本不操作】spark.memory.offHeap.size

Spark 1.6 开始引入了Off-heap memory(SPARK-11389)。这种模式不在 JVM 内申请内存，而是调用 Java 的 unsafe 相关 API 进行诸如 C 语言里面的 malloc() 直接向操作系统申请内存，由于这种方式不经过 JVM 内存管理，所以可以避免频繁的 GC，这种内存申请的缺点是必须自己编写内存申请和释放的逻辑。

从代码上来看，引入这块，主要是为了支持Tungsten项目，Tungsten项目致力于提升Spark程序对内存和CPU的利用率，使性能达到硬件的极限。

Tungsten项目主要包括：

Memory Management and B

最低0.47元/天解锁文章

小萝卜算子

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
SparkSql内存专题——Spark on YARN Executor整体内存理解

不管是聚合、还是join；不管它们占的空间有多大；不管它们是int类型的，还是一个大json串；不管实现整个聚合的计算用的是HashAgg 、是ObjectHashAgg 或者是SortAgg；不管实现整个JOIN的计算用的是SortMergeJoin 、是ShuffleHashJoin 、还是BroadcastHashJoin...
复制链接

扫一扫

专栏目录

小萝卜算子 CSDN认证博客专家 CSDN认证企业博客

码龄11年

76: 原创

30万+: 周排名

206万+: 总排名

3万+: 访问

: 等级

823: 积分

74: 粉丝

34: 获赞

7: 评论

121: 收藏

私信

关注

热门文章

分类专栏

最新评论

Sparksql Expression的canonicalized(规范化)操作
bit1010: 作者，你好，请教个问题 select b,B,sum(A+b) as ab,sum(B+a) as ba from testdata2 where b>3 group by b b和B两个attribute最后转换为AttributeReference，他们的ID是一样的，同名(大小写不同)的attribute，生成的ID一样，这个逻辑是在什么地方？谢谢
Sparksql源码系列 | 读源码必须掌握的scala基础语法
bit1010: 当在调用一个函数时，把这个函数应用到参数中。如果传递所有预期的参数，则表示您已完全应用它。如果只传递几个参数并不是全部参数，那么将返回部分应用的函数。上面这段说的是部分应用函数，不是偏函数。Spark SQL规则匹配应用使用的是偏函数
数仓面试——补充缺失日期和数据
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616963866?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
澄清 | snappy压缩到底支持不支持split? 为啥？
Call_me_Mr_P: 感谢科普，终于有个合理的答案了
SparkSql窗口函数源码分析（第一部分）
shuttlecock: 大佬，恭候开窗函数的第二部分

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小萝卜算子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。