一、下载:
在清华大学开源网站镜像站选择适合自己版本的Spark;
二、安装与配置
1、解压缩
我的个人资料目录为: /usr/husun
1.1、创建个人目录,并将下载的Spark用Xftp上传至个人目录下并解压
tar -zxvf /usr/husun/spark-2.4.7-bin-hadoop2.7.tgz -C /usr/spark
1.2、验证解压缩是否成功
进入spark的安装目录,输入:
ls | grep spark
出现以下显示则解压成功:
1.3、使用以下命令进入Spark的配置文件所在目录:
cd /usr/spark/spark-2.4.7-bin-hadoop2.7/conf/
注意:
用 ll 或 ls 命令查看该目录下的文件列表,后缀名都是".template",这是官方默认的文件命名方式。如果此时启动Spark,则文件不会生效。
用以下命令将这些配置文件改名为Spark可以识别的形式:
for i in *.template; do mv ${i} ${i%.*}; done
1.4、修改默认配置
修改slaves文件
vi slaves
先删除第一行"localhost",添加以下内容:(确保每一个主机名独一行)
master
slave1
slave2
1.5、修改spark-env.sh文件
vi spark-env.sh
在文档末尾加入
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
1.6、修改spark-config.sh文件
进入Spark下的sbin目录,
cd /usr/spark/spark-2.4.7-bin-hadoop2.7/sbin/
修改spark-config.sh文件
vi spark-config.sh
修改JAVA_HOME参数为自己的jdk安装目录
export JAVA_HOME=/usr/java/jdk1.8.0_241
2.1、分发给其他集群
scp -r /usr/spark/spark-2.4.7-bin-hadoop2.7/ slave1 /usr/spark/
scp -r /usr/spark/spark-2.4.7-bin-hadoop2.7/ slave2 /usr/spark/
3、配置用户环境变量
进入/etc/profile目录
cd etc/profile
在文档最后加入以下两行代码
export SPARK_HOME=/usr/spark/spark-2.4.7-bin-hadoop2.7
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
生效文件
source /etc/profile
三、启动并查看服务
1、启动执行脚本:
进入第一台虚拟机的Spark安装目录之下,启动所有Spark节点的相关服务:
cd /usr/spark/spark-2.4.7-bin-hadoop2.7/
sbin/start-all.sh
2、访问web页面
如果没有设置Windows中的hosts文件,则可以用主机IP
http://master:8080
如果出现这样的画面,恭喜你,成功了!