(BigData) Spark-2.1.1集群配置入门级教程

故事有了结尾

已于 2023-04-01 10:35:22 修改

阅读量308

点赞数 2

分类专栏：搭建文章标签：大数据 spark 分布式 Powered by 金山文档

于 2023-01-28 17:28:21 首次发布

本文链接：https://blog.csdn.net/xinfanyyds/article/details/128779839

版权

搭建专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Spark Standalone 模式

1.解压安装包至指定位置并改名

[root@master software]# tar -zxvf scala-2.11.0.tgz -C /usr/local/src/
[root@master software]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/src/

[root@master software]# cd /usr/local/src/
[root@master src]# mv scala-2.11.0/ scala
[root@master src]# mv spark-2.1.1-bin-hadoop2.7/ spark

2.配置环境变量并生效

[root@master src]# vim /root/.bash_profile

###scala
export SCALA_HOME=/usr/local/src/scala
export PATH=$PATH:$SCALA_HOME/bin
###spark
export SPARK_HOME=/usr/local/src/spark
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$SPARK_HOME/sbin

[root@master src]# source /root/.bash_profile

3.向另外两台机器发送环境变量

[root@master src]# scp /root/.bash_profile slave1:/root/.bash_profile 
[root@master src]# scp /root/.bash_profile slave2:/root/.bash_profile

4.修改配置文件

[root@master src]# cd spark/conf/
[root@master conf]# mv spark-env.sh.template spark-env.sh
[root@master conf]# vim spark-env.sh

export JAVA_HOME=/usr/local/src/java
export HADOOP_HOME=/usr/local/src/hadoop
export HADOOP_CONF_DIR=/usr/local/src/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/src/scala
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1G

[root@master conf]# mv slaves.template slaves
[root@master conf]# vim slaves

master
slave1
slave2

5.向另外两台机器发送文件

[root@master conf]# scp -r /usr/local/src/scala slave1:/usr/local/src
[root@master conf]# scp -r /usr/local/src/scala slave2:/usr/local/src
[root@master conf]# scp -r /usr/local/src/spark slave1:/usr/local/src
[root@master conf]# scp -r /usr/local/src/spark slave2:/usr/local/src

6.启动集群

[root@master conf]# cd /usr/local/src/spark/sbin
[root@master sbin]# ./start-all.sh

[root@master sbin]# spark-shell

spark Standalone 模式配置完成

Spark on yarn 模式

需要先关闭 spark 集群

1.关闭 yarn 集群

[root@master src]# stop-yarn.sh 
[root@master src]# vim hadoop/etc/hadoop/yarn-site.xml

2.在 yarn-site.xml 中添加配置内容

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
<property>
     <name>yarn.nodemanager.pmem-check-enabled</name>
     <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
<property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
</property>

3.向另外两台发送文件

[root@master src]# scp /usr/local/src/hadoop/etc/hadoop/yarn-site.xml slave1:/usr/local/src/hadoop/etc/hadoop/yarn-site.xml 
[root@master src]# scp /usr/local/src/hadoop/etc/hadoop/yarn-site.xml slave2:/usr/local/src/hadoop/etc/hadoop/yarn-site.xml

4.(先启动yarn) 启动集群

[root@master sbin]# start-yarn.sh 
[root@master spark]# sbin/start-all.sh
//对应进程分别是master和worker

5.启动spark on yarn

[root@master spark]# spark-shell --master yarn-client

Spark 提交任务

1.Spark集群提交

[root@master spark]# spark-submit  --master spark://master:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.1.jar

2.Spark yarn 提交

[root@master spark]# spark-submit --master yarn --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.1.jar

Spark 历史服务器

1.在spark-defaults.conf.template文件下配置

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9000/spark/log

2.在spark-env.sh文件下配置

export SPARK_HISTORY_OPTS='
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://master:9000/spark/log 
-Dspark.history.retainedApplicaions=30'

3.在HDFS上面创建多层目录

[root@master spark]# hdfs dfs -mkdir -p /spark/log

4.启动历史服务器

[root@master sbin]# ./start-history-server.sh