Spark常见报错与解决方案【三】

最新推荐文章于 2024-10-16 11:11:15 发布

大数据学习僧

最新推荐文章于 2024-10-16 11:11:15 发布

阅读量4.3k

点赞数 1

分类专栏： Spark 文章标签： spark 大数据 hadoop

本文链接：https://blog.csdn.net/yu7888/article/details/128222309

版权

Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1、java.lang.OutOfMemoryError: GC overhead limit exceeded

原因：数据量太大，内存不够
解决方案：(1)增大spark.executor.memory的值，减小spark.executor.cores
(2)减少输入数据量，将原来的数据量分几次任务完成，每次读取其中一部分

2、ERROR An error occurred while trying to connect to the Java server (127.0.0.1:57439) Connection refused

原因：(1)节点上运行的container多，每个任务shuffle write到磁盘的量大，导致磁盘满，节点重启
(2)节点其他服务多，抢占内存资源，NodeManager处于假死状态
解决方案：(1)确保节点没有过多其他服务进程
(2)扩大磁盘容量
(3)降低内存可分配量，比如为总内存的90%，可分配内存少了，并发任务数就少了，出现问题概率降低
(4)增大NodeManager的堆内存

3、org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337

背景：shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn，shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程；
shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。
定位过程：拉取任务运行日志，查看container日志；查看对应ip上NodeManager进程运行日志，路径由yarn-env.sh中YARN_LOG_DIR指定
原因：container请求NodeManager上external shufflle服务，不能正常connect，说明NodeManager可能挂掉了，原因可能是(1)节点上运行的container多，每个任务shuffle write到磁盘的量大，导致磁盘满，节点重启 (2)节点其他服务多，抢占内存资源，NodeManager处于假死状态
解决方案：(1)确保节点没有过多其他服务进程
(2)扩大磁盘容量
(3)降低内存可分配量，比如为总内存的90%，可分配内存少了，并发任务数就少了，出现问题概率降低
(4)增大NodeManager的堆内存

4、org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed

背景：shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn，shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程；
shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。
定位过程：拉取任务运行日志，查看container日志；查看对应ip上NodeManager进程运行日志，路径由yarn-env.sh中YARN_LOG_DIR指定
原因：container已经连接上NodeManager上external shufflle服务，原因可能是
(1)external shuffle服务正常，但在规定时间内将数据返回给container，可能是中间数据量大且文件数多，external shuffle服务搜索数据过程久，最终导致containter误认为connection dead，因此抛出xxx:7337 closed了异常
(2)NameNode进程不正常
解决方案：针对原因(1)，调大spark.network.timeout值，如1800s，此参数可以在spark-defaults.conf设置，对所有任务都生效；也可以单个任务设置
针对原因(2)，参考org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337的解决方案

5、org.apache.spark.shuffle.FetchFailedException: Failed to send RPC XXX to /xxx:7337:java.nio.channels.ColsedChannelException

背景：shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn，shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程；
shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。
定位过程：拉取任务运行日志，查看container日志；查看对应ip上NodeManager进程运行日志，路径由yarn-env.sh中YARN_LOG_DIR指定
原因：external shuffle服务将数据发送给container时，发现container已经关闭连接，出现该异常应该和org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed同时出现
解决方案：参考org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed的解决方案

6、spark任务中stage有retry

原因：下一个stage获取上一个stage没有获取到全部输出结果，只获取到部分结果，对于没有获取的输出结果retry stage以产出缺失的结果
(1)部分输出结果确实已经丢失
(2)部分输出结果没有丢失，只是下一个stage获取结果超时，误认为输出结果丢失
解决方案：针对原因(1)，查看进程是否正常，查看机器资源是否正常，比如磁盘是否满或者其他
针对原因(2)，调大超时时间，如调大spark.network.timeout值

7、Final app status: FAILED, exitCode: 11, (reason: Max number of executor failures (200) reached)

原因：executor失败重试次数达到阈值
解决方案：1.调整运行参数，减少executor失败次数
2.调整spark.yarn.max.executor.failures的值，可在spark-defaults.conf中调整
确定方式：在日志中搜索"Final app status:"，确定原因，在日志统计"Container marked as failed:"出现次数