问题描述
使用spark提交任务到YARN时,在没有配置spark.yarn.archive
或者spark.yarn.jars
时, 看到输出的日志在输出:
备注:spark 3.1.1, HDP环境
Neither spark.yarn.jars nor spark.yarn.archive is set,falling back to uploading lib
使用spark-shell 或 spark-sql时(On Yarn)也有同样问题,导致启动很慢,物理机环境启动实测花费了28秒。解决办法如下:
上传jars
hdfs dfs -mkdir /user/spark/spark3jars
hdfs dfs -put /usr/hdp/3.1.0.1-187/spark3/jars /user/spark/spark3jars/
设置Spark
编辑spark-defaults.conf
增加spark.yarn.jars hdfs:///user/spark/spark3jars/*
再次启动spark-shell已经没有那句提示,打开时间为20秒,快了8秒。
如果是spark集群,如HDP、,需从页面自定义spark-defaults.conf
内容后重启Spark。
over!