在hadoop yarn上运行spark报错

参照相关教程,在yarn-site.xml配置文件中进行调整,并执行重启和集群格式化操作,成功解决了Spark在Hadoop YARN上运行时遇到的错误。
摘要由CSDN通过智能技术生成
hduser@master:/usr/local/hadoop/etc/hadoop$ HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ pyspark --master yarn --deploy-mode client
Python 2.7.14 |Anaconda, Inc.| (default, Dec  7 2017, 17:05:42) 
[GCC 7.2.0] on linux2
Type "help", "copyright", "credits" or "license" for more information.
18/06/15 10:25:33 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/06/15 10:25:39 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
18/06/15 10:26:39 ERROR YarnClientSchedulerBackend: Yarn application has already exited with state FINISHED!
18/06/15 10:26:39 ERROR TransportClient: Failed to send RPC 7707247702813566843 to /
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Hadoop YARN运行PySpark,需要按照以下步骤操作: 1. 安装HadoopSpark,并配置好环境变量。 2. 在Hadoop集群上启动YARN服务。 3. 在Spark的conf目录下,创建一个新的spark-defaults.conf文件,并添加以下配置: ``` spark.master yarn spark.submit.deployMode client spark.driver.memory 1g spark.executor.memory 1g spark.executor.instances 2 spark.yarn.appMasterEnv.PYSPARK_PYTHON /usr/bin/python3 ``` 其中,`spark.master`设置为`yarn`,表示使用YARN作为Spark的资源管理器;`spark.submit.deployMode`设置为`client`,表示在客户端模式下提交应用程序;`spark.driver.memory`和`spark.executor.memory`分别设置为1g,表示每个Driver和Executor的内存大小;`spark.executor.instances`设置为2,表示启动2个Executor;`spark.yarn.appMasterEnv.PYSPARK_PYTHON`设置为`/usr/bin/python3`,表示使用Python3作为PySpark的解释器。 4. 在PySpark脚本中,添加以下代码: ``` from pyspark.sql import SparkSession spark = SparkSession.builder.appName("PySparkExample").getOrCreate() # 在这里编写PySpark代码 spark.stop() ``` 其中,`SparkSession`用于创建Spark应用程序的入口点;`appName`设置应用程序的名称;`getOrCreate`方法用于获取现有的SparkSession或创建一个新的SparkSession。 5. 在命令行中,使用以下命令提交PySpark应用程序: ``` spark-submit --master yarn --deploy-mode client --py-files <path-to-py-files> <path-to-pyspark-script> ``` 其中,`--master`设置为`yarn`,表示使用YARN作为Spark的资源管理器;`--deploy-mode`设置为`client`,表示在客户端模式下提交应用程序;`--py-files`指定需要上传到集群的Python文件;`<path-to-pyspark-script>`指定PySpark脚本的路径。 6. 提交应用程序后,可以在YARN的Web界面上查看应用程序的运行情况。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值