1.上传jar包spark-2.3.1-bin-hadoop2.6.tgz并解压
2.去conf下修改slaves.template文件,该文件是worker所在的节点,在文件中加入worker的主节点
mv slaves.template slaves
vim slaves
node2
node3
3.修改spark-env. sh
SPARK_MASTER_IP:master的ip
SPARK_MASTER_PORT:提交任务的端口,默认是7077
SPARK_WORKER_CORES:每个worker从节点能够支配的core的个数
SPARK_WORKER_MEMORY:每个worker从节点能够支配的内存数
4.同步到其他两台主机上
5.去sbin下启动
./start-all.sh
6.安装客户端
将spark安装包拷贝到要当客户端的主机上即可
7.8080是Spark WEBUI界面的端口,7077是Spark任务提交的端口。
可与在spark-env.sh中将WEBUI界面的端口改掉
SPARK_MASTER_WEBUI_PORT=9999
Master高可用
1.将充当备份master节点上的spark-env. sh,将master的host修改为自己的主机名
SPARK_MASTER_HOST=node2
2.在spark集群中的节点上的spark-env. sh中添加以下配置,该配置用来指定zookeeper
SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node2:2181,node3:2181,node4:2181 -Dspark.deploy.zookeeper.dir=/Master"
3.在主机节点上启动spark
./start-all.sh
4.在备机上启动master
./start-master.sh
如果要将任务提交到yarn上运行,则需要在客户端的spark-env.sh上配置
HADOOP_CONF_DIR=/opt/hadoop-2.6.5/etc/hadoop