- 准备
- hadoop-2.7.5
- spark-2.0.0
- scala-2.11.8.tar(Linux环境spark运行所需)及scala-2.11.8.msi(win开发环境所需)这两个要一致
- 搭建(由于是在个人电脑上作为练习,因此涉及内存大小的地方要根据电脑内存合理设置)
- hadoop搭建(略) 这块按照其他搭建过程能运行起来就行,下边几个参数需要添加到yarn-site.xml中
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property><property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>512</value>
</property><property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property><property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property><property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property> -
spark搭建
-
解压spark的压缩包
-
将配置好的yarn-site.xml和core-site.xml从$HADOOP_HOME/etc/hadoop/拷贝一份到$SPARK_HOME/conf下
-
配置spark_env.sh,将如下配置添加到末尾
-
export JAVA_HOME=/usr/local/jdk1.8
export SCALA_HOME=/home/hadoop/scala-2.11.8
export HADOOP_HOME=/home/hadoop/hadoop-2.7.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.5/etc/hadoop
export SPARK_WORKER_MEMORY=2048m
-
-
配置spark-defaults.conf,将如下配置添加到末尾
-
spark.yarn.jars=hdfs://hadoop02:9000/sparkjars/* //这里的hadoop02:9000 代表集群的namenode所在节点,配置成
-
-
- hadoop搭建(略) 这块按照其他搭建过程能运行起来就行,下边几个参数需要添加到yarn-site.xml中
Spark on Yarn 搭建及填坑过程
最新推荐文章于 2023-10-03 14:31:24 发布
本文详细介绍了如何在个人电脑上搭建Spark on Yarn的环境,包括Hadoop和Spark的配置,如内存设置、YARN参数调整。同时,文章涵盖了Spark Shell验证、WordCount程序编写、提交运行以及遇到问题的解决方法,提供了完整的Maven工程配置示例。
摘要由CSDN通过智能技术生成