追风赶月莫停留,平芜尽处是春山。
文章目录
环境
- VMware 12.0.1
- JDK 1.8.0
- Hadoop 2.8.5
- Python 3.6+
Spark 完全分布式模式的搭建
注意:若没有配置Hadoop环境请先配置Hadoop环境;若Python的版本不是3.6及以上的请先配置3.6以上的版本。
一、下载安装包,解压到合适位置:
- 将压缩包 spark-3.0.3-bin-hadoop2.7.tgz,通过上传软件上传至
/opt/softwares
目录;
解压软件包并移动至/opt/modules/
二、配置相关的文件:
- 配置
spark-env.sh
,该文件位于./conf
目录下,需将spark-env.sh.template
复制一份改名为spark-env.sh
在该文件里追加:# 配置java环境变量 export JAVA_HOME=/opt/modules/jdk1.8.0_171 # 配置master的主机名 export SPARK_MASTER_HOST=centos01 # 配置端口号 export SPARK_MASTER_PORT=7077
- 配置
slaves
,该文件位于./conf
目录下,需将slaves.template
复制一份改名为slaves
在该文件里追加:
分别为两个work节点的主机名。centos02 centos03
三、将Spark分发到其他节点:
- 运行以下命令:
scp -r /opt/modules/spark-3.0.3 root@centos02:/opt/modules scp -r /opt/modules/spark-3.0.3 root@centos03:/opt/modules
四、启动Spark:
$sbin/start-all.sh
在spark-3.0.3/sbin
目录下的start-all.sh
文件 。
五、查看Spark是否启动成功
- 输入
jps
命令,在主节点上出现master
,从节点上出现work
即为启动成功。 - 进入
spark/bin
目录下,执行./pyspark
若出现欢迎界面即为启动成功