sparkOOM问题

最新推荐文章于 2023-10-18 22:51:35 发布

wu13682463835

最新推荐文章于 2023-10-18 22:51:35 发布

阅读量164

点赞数

分类专栏： spark 文章标签： spark OOM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wu13682463835/article/details/82874885

版权

博客详细讨论了Spark中的内存溢出问题，包括map执行和shuffle后内存溢出的场景，以及对应的解决方法。文章介绍了Spark内存模型，强调了执行内存、存储内存和其它内存的划分，并给出了调整分区、合理使用repartition、优化partitioner和避免数据不平衡等策略来防止OOM。此外，还提及了使用mapPartitions和广播变量等代码优化技巧。

摘要由CSDN通过智能技术生成

Spark中的OOM问题不外乎以下两种情况
map执行中内存溢出
shuffle后内存溢出
map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。
Spark 内存模型：
Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。
execution内存是执行内存，文档中说join，aggregate都在这部分内存中执行，shuffle的数据也会先缓存在这个内存中，满了再写入磁盘，能够减少IO。其实map过程也是在这个内存中执行的。
storage内存是存储broadcast，cache，persist数据的地方。
other内存是程序执行时预留给自己的内存。
内存溢出解决方法：

map过程产生大量对象导致内存溢出：
这种溢出的原因是在单个map中产生了大量的对象导致的，例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartition方法，分区成更小的块传入map。例如：rdd.repartition(10000).map(x&#

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
sparkOOM问题

Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。Spark 内存模型：Spark在一个Executor中的内存分为三块，一块是e...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。