spark学习之搭建分布式集群

本文分两种方法搭建集群,一种是普通的集群,一种是HA分布式集群
普通集群搭建:

  1. 下载spark tar包
  2. 将tar上传到Linux服务器中
    安装路径: /export/server/spark-2.4.0
  3. 配置环境

进入到spark-2.4.0/conf路径下

4.1将spark-env.sh.template改成spark-env.sh

vi spark-env.sh
#配置java环境变量
export JAVA_HOME=/export/server/jdk1.8
#指定master的位置
export SPARK_MASTER_HOST=node1
#指定master的端口号
export SPARK_MASTER_PORT=7077
#spark跟hadoop进行整合
export HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop

第一个是java环境变量,第二个是Master的端口号,最后一个是hadoop配置文件的位置.我的hadoop安装路径/export/server,这个需要换成自己的安装路径。

4.2 将slaves.template改成slavs

 vi slaves
    node2
    node3
    将worker节点的地址写入slaves文件中

5.启动集群
进入到spark2.4.0/sbin目录下
./start-all.sh
使用jps查看进程
访问web端口:http://hadoop-node1:8080/

HA集群搭建
1. 首先,需要搭建zookeeper集群
2. 修改spark-env.sh

将master的ip地址注释掉
   # export SPARK_MASTER_HOST=node1
加上下面这句话
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark1"

解释:zookeeper-url后面指向的是zookeepra每个节点的ip地址,dir指向元数据存放的位置,自己可以随便指定

3.正常启动集群:
3.1在master主节点上,spark-2.4.0/bin目录下
./start-all.sh
访问http://hadoop-node1:8080/,此时主节点的状态是alive

3.2在worker节点上,spark2.4.0/bin目录下
./start-master.sh
启动备用的master节点
访问http://hadoop-node2:8080/,此时主节点的状态是standby

4.验证HA是否搭建成功,在主节点上,将master进程kill -9,杀掉
此时访问备用节点的地址http://hadoop-node2:8080/,等待两分钟左右,standby会变成alive

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值