本文包含三种模式安装:单机、Standalone、Yarn等
一、单机模式
1).下载spark2.1.2.tar.gz
2).解压安装:
$>cd /home/hyxy/soft/
$>cp /mnt/hgfs/2.安装环境/download/apache-spark/spark-2.1.2-bin-hadoop2.7.tgz .
$>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz
$>ln -s spark-2.1.2-bin-hadoop2.7 spark
3).配置环境变量
修改【~/.bash_profile】,在文件尾部追加以下内容:
#spark install
export SPARK_HOME=/home/hyxy/soft/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
$>source ~/.bash_profile
4).至此,单机版搭建完成!
$>spark-shell
访问WebUI:HTTP://master:4040
说明:
如果现有的集群框架中存在MR的相关应用,同时相关的MR无法转换为Spark应用的,集群选型为Spark On Yarn;
如果现有的集群框架中只有Spark应用,那么建议采用spark Standalone模式;
二、Spark on Standalone 安装模式
1.复制三个文件,并修改:spark/conf/
$>cp spack-env.sh.template spark-env.sh
$>cp slaves.template slaves
$>cp spark-defaults.conf.template spark-defaults.conf
修改: $>gedit spark-env.sh
添加以下内容,注意:“=”附近无空格:
export JAVA_HOME=/home/hyxy/soft/jdk
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
$>cgedit slaves
添加工作节点(Worker),如下:
master
slave1
slave2
2.远程scp复制spark安装目录至其它节点:slave1和slave2;
$>scp -r ~/soft/spark-2.1.2-bin-hadoop2.7/ hyxy@slave1:/home/hyxy/soft/
$>ln -s spark-2.1.2-bin-hadoop2.7 spark //在Slave1节点上
3.分别修改slave1、slave2等的环境变量;并source
4.开启spark Standalone集群的守护进程
$>start-master.sh //开启spark的Master守护进程
$>start-slaves.sh //开启spark的Worker守护进程
5.测试
访问WebUI界面:http://master:8080
$>spark-shell --master spark://master:7077
观察WebUI的网页说明;
三、Spark on Yarn集群模式安装
1).修改spark-env.sh文件,添加以下内容:
export HADOOP_CONF_DIR=/home/hyxy/soft/hadoop/etc/hadoop
2).测试:
开启hadoop:
$>zkserver.sh start
$>start-dfs.sh
$>start-yarn.sh
启动spark:
$>spark-shell --master yarn-client
3).注意:抛异常,资源调用超出上限,修改默认校验
修改{HADOOP_HOEM/etc/hadoop}/yarn-site.xml
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
**
分发至集群其它节点,重启Hadoop,即可!!