spark作业提交后,在driver上运行init()方法时报错:java.lang.OutOfMemoryError: GC overhead limit exceeded
报错原因是代码中使用了HashMap而且数据量很大,所以导致GC overhead,调整JVM的启动参数-Xms和-Xmx,这个参数配置Java堆的大小,因为代码运行时hashmap对象存放在堆中,故需调大改参数。配置时需要考虑机器的内存大小,不能盲目配置过大。
若作业提交时以yarn-client模式提交,Driver运行时的JVM参数是spark在spark-env.sh 配置文件中读取,因此在spark-env.sh中加入配置:SPARK_DRIVER_MEMORY=2G
作业在每个worker上运行时报错:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
此时需要配置每个worker运行的MEMORY参数,在spark-env.sh中配置:
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=4
spark作业提交时配置两个参数:--executor-memory 4G --total-executor-cores 4
executor-memory属性配置的是JVM进程的