Spark-yarn环境配置

一、spark-env.sh

1.配置hadoop的配置文件

export HADOOP_CONF_DIR=/home/hadoop/etc/hadoop

二、spark-defaults.conf

1.配置spark依赖的文件并上传到hdfs中

spark.yarn.jar=hdfs:///user/spark/jars/spark-assembly-1.6.0-hadoop2.4.0.jar

2.配置spark在yarn上的history

spark.history.ui.port=18080
spark.eventLog.enabled=true
spark.history.fs.logDirectory=hdfs://master:8020/tmp/logs/spark/logs

三、启动spark的history server

${SPARK_HOME}/sbin/start-history-server.sh

查看日志

yarn logs -applicationId application_1477828424381_171674

至此, 配置完成

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Spark是一个分布式计算框架,可以运行在Hadoop集群上。而YARN是Hadoop的资源管理器,可以提供资源给Spark来运行。 以下是spark-yarn安装配置的步骤: 1. 安装Hadoop集群 在安装Spark之前,您需要先安装Hadoop集群。请确保您的Hadoop集群正在运行,并且您可以使用hadoop命令行工具访问它。 2. 下载SparkSpark官方网站下载Spark二进制文件,并解压缩到您的目录中。您可以将Spark安装在任何地方,只要您的Hadoop集群可以访问它即可。 3. 配置SparkSpark的conf目录下,有一个spark-env.sh文件,您需要编辑它来配置Spark的环境变量。将以下内容添加到文件末尾: export HADOOP_CONF_DIR=/path/to/hadoop/conf 这将告诉Spark去哪里找到Hadoop的配置文件。 4. 配置YARNSpark的conf目录下,有一个spark-defaults.conf文件,您需要编辑它来配置Spark使用YARN。将以下内容添加到文件末尾: spark.master yarn spark.submit.deployMode client spark.executor.memory 2g spark.driver.memory 2g 这将告诉Spark使用YARN作为资源管理器,并设置内存大小。 5. 运行Spark应用程序 现在,您可以运行Spark应用程序了。使用以下命令: ./bin/spark-submit --class <main-class> --master yarn --deploy-mode client <application-jar> <application-arguments> 其中,<main-class>是您的主类,<application-jar>是您的应用程序jar文件,<application-arguments>是您的应用程序参数。 6. 监控应用程序 您可以在YARN的Web界面上监控您的应用程序。打开以下网址: http://<yarn-resource-manager>:8088/cluster 其中,<yarn-resource-manager>是您的YARN资源管理器的主机名。在Web界面上,您可以看到正在运行的应用程序的状态和日志。 这就是spark-yarn安装配置的步骤。祝您好运!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值