目录
一、准备
1.scala安装包的下载(官网下载:https://www.scala-lang.org/download/)
2.spark安装包的下载(官网下载:http://spark.apache.org/downloads.html,不做机器适配下载pre-built版本)
3.Hadoop集群环境已配置,没有配置的请先移步:
https://blog.csdn.net/zane3/article/details/84830237
二、具体内容
1.scala环境配置
解压scala压缩包移动到/usr/local目录下,打开/etc/profile文件,追加下面部分:
export SCALA_HOME=/usr/local/scala-2.12.7
PATH=${JAVA_HOME}/bin:$SCALA_HOME/bin:$PATH
结果如下:
#set java environment
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_191
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/jre
export SCALA_HOME=/usr/local/scala-2.12.7
export HADOOP_HOME=/usr/local/hadoop-2.7.7
PATH=${JAVA_HOME}/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
集群中的机器都要配置
立即生效:
source /etc/profile
2.spark集群配置
1).解压spark压缩包并移动到/usr/local目录下,配置环境变量/etc/profile
结果如下:
#set java environment
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_191
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/jre
export SCALA_HOME=/usr/local/scala-2.12.7
export HADOOP_HOME=/usr/local/hadoop-2.7.7
export SPARK_HOME=/usr/local/spark-2.4.0-bin-hadoop2.7
PATH=${JAVA_HOME}/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
2).打开spark目录下的子目录/conf,编辑spark-env.sh文件:
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
JAVA_HOME=/usr/lib/jvm/jdk1.8.0_191
export SPARK_MASTER_IP=master
export SPARK_MASTER_HOST=master
export SPARK_LOCAL_IP=master #修改为对应机器的IP
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=1
3).复制生成slaves文件:
cp slaves.template slaves
编辑结果如下:
master
slave1
slave2
4).复制spark目录到集群的其他机器,并做上面的提示修改
scp /usr/local/spark zrq@Slave1:/usr/local
5).修改conf目录下的start-all.sh名称为start-spark-all.sh,同理操作stop.sh文件,防止与Hadoop的命令冲突。
6).master节点启动
master用jps查看,新增:
master
sclave用jps查看,新增:
Worker
三、参考文章
[1] Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程