spark 如何防止内存溢出

最新推荐文章于 2023-02-21 18:02:44 发布

xiaoyaGrace

最新推荐文章于 2023-02-21 18:02:44 发布

阅读量444

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/xiaoyaGrace/article/details/102821104

版权

Spark中的OOM问题不外乎以下两种情况
   map执行中内存溢出
   shuffle后内存溢出
1. map过程产生大量对象导致内存溢出
   这种溢出的原因是在单个map中产生了大量的对象导致的，例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartition方法，分区成更小的块传入map。例如：rdd.repartition(10000).map(x=>for(i <- 1 to 10000) yield i.toString)。

2.数据不平衡导致内存溢出
   数据不平衡除了有可能导致内存溢出外，也有可能导致性能的问题，解决方法和上面说的类似，就是调用repartition重新分区。这里就不再累赘了。

3.shuffle后内存溢出
   shuffle内存溢出的情况可以说都是shuffle后，单个文件过大导致的。在Spark中，join，reduceByKey这一类型的过程，都会有shuffle的过程，在shuffle的使用，需要传入一个partitioner，大部分Spark中的shuffle操作，默认的partitioner都是HashPatitioner，默认值是父RDD中最大的分区数,这

最低0.47元/天解锁文章

xiaoyaGrace

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 如何防止内存溢出

Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出1. map过程产生大量对象导致内存溢出这种溢出的原因是在单个map中产生了大量的对象导致的，例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定...
复制链接

扫一扫

专栏目录