Spark Application提交到集群中运行问题汇总

一、使用dfs.nameservices作为hdfs路径的时候找不到路径

解决方式:

在spark-default.conf中添加spark.files /opt/hadoop/etc/hadoop/hdfs-site.xml,/opt/hadoop/etc/hadoop/core-site.xml

二、用yarn-cluster模式运行的时候一直停留在Application report for application_1546371889219_0002 (state: ACCEPTED)

解决方式:

我的原因是在代码中设置了master为standalone但在提交脚本spark-submit中的master为yarn-cluster,本以为spark-submit中设置的master会覆盖代码中的设置,结果并不是,如果master不一致还是会冲突。master保持一致或者代码中直接不设置master就可以解决问题。不过这个问题的产生还有可能是集群的资源不足而导致application跑不起来。

三、用standalone模式跑的时候一直显示Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

解决方式:

我的原因是由于spark-submit中设置的--executor-cores的数量超过了worker节点的core数量,导致集群的worker没有足够的core来跑application。--executor-cores数量设置成小于等于每个worker的数量或者在spark-env.sh中调整每个worker的core的数量问题解决。这个问题的产生是因为集群资源不足,除了core不足外还有可能内存不足。

四、 INFO yarn.Client: Uploading resource file时间过长(在yarn-cluster模式中需要把spark的jar包上传到hdfs上,但等application跑完之后会自动删除,下一次跑的时候又会上传这样导致效率低下)

解决方式:

1、将$SPARK_HOME/相关依赖jar包上传到hdfs上

hadoop fs -mkdir /input/sparkjar/

hadoop fs -put /opt/cloudera/parcels/spark-1.6.3-bin-hadoop2.6/lib/spark-*.jar /input/sparkjar/

2、修改spark-default.conf参数,添加:

spark.yarn.jar                 hdfs://nameservice1/wis/tmp/*.jar

1.6.3 spark.yarn.jar

2.1.1 spark.yarn.jars

3、如果spark-submit.sh中有声明额外的jar包也可以先上传到hdfs上然后声明的时候路径指定为hdfs的路径

这么做就避免了每次提交任务都把jar包上传到hdfs上然后结束又会自动删除

五、待解决!yarn-client模式下19/01/05 17:52:18 ERROR spark.SparkContext: Error initializing SparkContext.

原因内存不足导致无法初始化SparkContext。。。

未完待续。。。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值