spark问题与排查

最新推荐文章于 2024-08-20 00:30:32 发布

xjping0794

最新推荐文章于 2024-08-20 00:30:32 发布

阅读量6.1k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/xjping0794/article/details/77510995

版权

本文主要介绍了Spark在运行过程中遇到的一些常见问题及解决方案，包括executor内存超限、网络和GC问题、读取lzo文件错误、executor频繁创建失败、worker异常退出以及任务分配不均等问题。针对这些问题，提出了如调大executor-memory、修改网络超时设置、添加环境变量、调整Spark配置参数等解决策略。

摘要由CSDN通过智能技术生成

1、spark thriftserver报以下错误，其他诸如hive/sparksql等方式均正常

ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379] shutting down ActorSystem [sparkDriverActorSystem]
java.lang.OutOfMemoryError: Java heap space

原因：thriftserver的堆内存不足

解决办法：重启thriftserver，并调大executor-memory内存（不能超过spark总剩余内存，如超过，可调大spark-env.sh中的SPARK_WORKER_MEMORY参数，并重启spark集群。

 
 start-thriftserver.sh --master spark://masterip:7077 --executor-memory 2g --total-executor-cores 4 --executor-cores 1 --hiveconf hive.server2.thrift.port=10050 --conf spark.dynamicAllocation.enabled=false 

 
 如果调大了executor的内存,依旧报此错误,仔细分析发现应该不是executor内存不足,而是driver内存不足,在standalone模式下默认给driver 1G内存,当我们提交应用启动driver时,如果读取数据太大,driver就可能报内存不足。
 在spark-defaults.conf中调大driver参数
 spark.driver.memory    2g
 同时在spark-env.sh中同样设置
 export SPARK_DRIVER_MEMORY=2g 
 
 

 
 2、Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded 
 
 JDK6新增错误类型。当GC为释放很小空间占用大量时间时抛出。
 在JVM中增加该选项 -XX:-UseGCOverheadLimit 关闭限制GC的运行时间（默认启用 ）
 在spark-defaults.conf中增加以下参数
 spark.executor.extraJavaOptions -XX:-UseGCOverheadLimit
 spark.driver.extraJavaOptions -XX:-UseGCOverheadLimit

 
 3、spark 错误描述： 
 
 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby 
 
 原因： 
 
   NN主从切换时,spark报上述错误,经分析spark-defaults.conf配置参数spark.eventLog.dir写死了其中一个NN的IP,导致主从切换时，无法读日志。 
  
 另外，跟应用程序使用的checkpoint也有关系,首次启动应用程序时,创建了一个新的sparkcontext,而该sparkcontext绑定了具体的NN ip, 
  
 往后每次程序重启,由于应用代码【StreamingContex