(BigData) Spark-2.1.1集群配置 入门级教程

Spark Standalone 模式

1.解压安装包至指定位置并改名
[root@master software]# tar -zxvf scala-2.11.0.tgz -C /usr/local/src/
[root@master software]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/src/
[root@master software]# cd /usr/local/src/
[root@master src]# mv scala-2.11.0/ scala
[root@master src]# mv spark-2.1.1-bin-hadoop2.7/ spark
2.配置环境变量并生效
[root@master src]# vim /root/.bash_profile 
###scala
export SCALA_HOME=/usr/local/src/scala
export PATH=$PATH:$SCALA_HOME/bin
###spark
export SPARK_HOME=/usr/local/src/spark
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$SPARK_HOME/sbin
[root@master src]# source /root/.bash_profile 
3.向另外两台机器发送环境变量
[root@master src]# scp /root/.bash_profile slave1:/root/.bash_profile 
[root@master src]# scp /root/.bash_profile slave2:/root/.bash_profile 
4.修改配置文件
[root@master src]# cd spark/conf/
[root@master conf]# mv spark-env.sh.template spark-env.sh
[root@master conf]# vim spark-env.sh 
export JAVA_HOME=/usr/local/src/java
export HADOOP_HOME=/usr/local/src/hadoop
export HADOOP_CONF_DIR=/usr/local/src/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/src/scala
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1G
[root@master conf]# mv slaves.template slaves
[root@master conf]# vim slaves 
master
slave1
slave2
5.向另外两台机器发送文件
[root@master conf]# scp -r /usr/local/src/scala slave1:/usr/local/src
[root@master conf]# scp -r /usr/local/src/scala slave2:/usr/local/src
[root@master conf]# scp -r /usr/local/src/spark slave1:/usr/local/src
[root@master conf]# scp -r /usr/local/src/spark slave2:/usr/local/src
6.启动集群
[root@master conf]# cd /usr/local/src/spark/sbin
[root@master sbin]# ./start-all.sh
[root@master sbin]# spark-shell 

spark Standalone 模式配置完成

Spark on yarn 模式

需要先关闭 spark 集群

1.关闭 yarn 集群
[root@master src]# stop-yarn.sh 
[root@master src]# vim hadoop/etc/hadoop/yarn-site.xml 
2.在 yarn-site.xml 中添加配置内容
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
<property>
     <name>yarn.nodemanager.pmem-check-enabled</name>
     <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
<property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
</property>
3.向另外两台发送文件
[root@master src]# scp /usr/local/src/hadoop/etc/hadoop/yarn-site.xml slave1:/usr/local/src/hadoop/etc/hadoop/yarn-site.xml 
[root@master src]# scp /usr/local/src/hadoop/etc/hadoop/yarn-site.xml slave2:/usr/local/src/hadoop/etc/hadoop/yarn-site.xml 
4.(先启动yarn) 启动集群
[root@master sbin]# start-yarn.sh 
[root@master spark]# sbin/start-all.sh
//对应进程分别是master和worker
5.启动spark on yarn
[root@master spark]# spark-shell --master yarn-client

Spark 提交任务

1.Spark集群提交

[root@master spark]# spark-submit  --master spark://master:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.1.jar 

2.Spark yarn 提交

[root@master spark]# spark-submit --master yarn --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.1.jar 

Spark 历史服务器

1.在spark-defaults.conf.template文件下配置
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9000/spark/log
2.在spark-env.sh文件下配置
export SPARK_HISTORY_OPTS='
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://master:9000/spark/log 
-Dspark.history.retainedApplicaions=30'
3.在HDFS上面创建多层目录
[root@master spark]# hdfs dfs -mkdir -p /spark/log
4.启动历史服务器
[root@master sbin]# ./start-history-server.sh 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值