Spark作业执行之JVM参数设置

本文讨论了Spark作业在执行过程中遇到的内存问题,如`GC overhead limit exceeded`和`Java heap space`错误。解决方案涉及调整JVM参数`-Xms`和`-Xmx`以增加Java堆大小,以及在`spark-env.sh`中配置`SPARK_DRIVER_MEMORY`和`SPARK_WORKER_MEMORY`。同时,解释了在YARN上运行时,需要关注`yarn-site.xml`中的配置,如`yarn.app.mapreduce.am.resource.mb`和`yarn.scheduler.maximum-allocation-mb`,以及`executorMemory`和`executorMemoryOverhead`的关系,以确保Executor能有效运行并避免内存溢出问题。
摘要由CSDN通过智能技术生成

spark作业提交后,在driver上运行init()方法时报错:java.lang.OutOfMemoryError: GC overhead limit exceeded

报错原因是代码中使用了HashMap而且数据量很大,所以导致GC overhead,调整JVM的启动参数-Xms和-Xmx,这个参数配置Java堆的大小,因为代码运行时hashmap对象存放在堆中,故需调大改参数。配置时需要考虑机器的内存大小,不能盲目配置过大。

若作业提交时以yarn-client模式提交,Driver运行时的JVM参数是spark在spark-env.sh 配置文件中读取,因此在spark-env.sh中加入配置:SPARK_DRIVER_MEMORY=2G

作业在每个worker上运行时报错:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

此时需要配置每个worker运行的MEMORY参数,在spark-env.sh中配置:

export SPARK_WORKER_MEMORY=4g

export SPARK_WORKER_CORES=4


spark作业提交时配置两个参数:--executor-memory 4G --total-executor-cores 4

executor-memory属性配置的是JVM进程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值