CentOS7部署Spark集群

CentOS7 部署Spark集群

一、安装JAVA

二、安装Hadoop集群

https://blog.csdn.net/williananjhon/article/details/89891900

三、安装Scala

(一)、下载Scala安装包

https://www.scala-lang.org/download/

(二)、安装Scala

1、解压到指定文件

mkdir 文件路径(mkdir /opt/Scala)

tar -zxvf scala-x.xx.x.tgz -C 新建的文件路径

(tar -zxvf scala-2.11.8.tgz -C /opt/Scala)

2、修改配置文件/etc/profile

vi /etc/profile

增加# SCALA_HOME

export SCALA_HOME=scala解压后的路径(pwd查看)

export PATH=$SCALA_HOME/bin:$PATH

3、是配置生效

source /etc/profile

scala -version

四、安装Spark

(一)、下载spark安装包

http://spark.apache.org/downloads.html

(二)、安装Spark

1、解压到指定文件

mkdir 文件路径(mkdir /opt/Spark)

tar -zxvf spark-x.x.x-bin-hadoop2.7.tgz -C 新建的文件路径

(tar -zxvf spark-x.x.x-bin-hadoop2.7.tgz -C /opt/Spark)

2、修改配置文件/etc/profile

vi /etc/profile

增加# SPARK_HOME

export SPARK_HOME=scala解压后的路径(pwd查看)

export PATH=$SPARK_HOME/bin:$PATH

3、是配置生效

source /etc/profile

五、Spark模式

(一)、local模式:spark-shell

使用spark-shell测试

(二)、Standalone模式

1、修改配置文件slaves.template

cd Spark路径/conf

cp slaves.template slaves

vi slaves 添加以下内容:

master

slavexx

··········

slavexx(看节点数量)

2、配置spark-env.sh

cp spark-env.sh.template spark-env.sh

vi spark-env.sh 添加以下内容:

# JAVA的路径

export JAVA_HOME=${JAVA_HOMRE}

# SCALA的路径

export SCALA_HOME=${SCALA_HOME}

#HADOOP的路径

export HADOOP_CONF_DIR=${HADOOP_HOME}

# master的ip或host

export SPARK_MASTER_IP=master主机名

# 提交任务的端口

export SPARK_MASTER_PORT=7077

# 浏览器访问master的端口

export SPARK_MASTER_WEBUI_PORT=8080

# 每个worker从节点能够支配的core的个数

export SPARK_WORKER_CORES=2

# 每个worker从节点能够支配的内存数

export SPARK_WORKER_MEMORY=内存大小

#每个worker

export SPARK_WORKER_PORT=7078

export SPARK_WORKER_WEBUI_PORT=8081

export SPARK_WORKER_INSTANCES=1

# 每个worker的数据存放

export

SPARK_WORKER_DIR=${SPARK_HOME}/data/tmp

#设定Spark executor的内存大小

export SPARK_EXECUTOR_MEMORY=1G

#设定Spark executor 使用的cpu的核的数量export SPARK_EXECUTOR_CORES=1

3、配置修改Spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

vi spark-defaults.conf 添加以下内容:

# 设置事件日志为true

spark.eventlog.enabled=true

# 设置记录删除时间

spark.history.fs.cleaner.interval=1d

spark.history.fs.cleaner.maxAge=7d

# 设定事件日志目录

spark.eventlog.dir hdfs://nn/user/spark/history

# 设定Driver的内存大小

spark.driver.memory 1g

# 设定历史操作日志操作保存路径

spark.history.fs.logDirectory hdfs://nn/usr/spark/history

# 设定仓库目录

spark.sql.warehouse.dir /user/spark/warehouse

(三)、Yarn模式

只需要在standalone模式的基础上,在客户端的spark-env.sh文件中配置

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

(四)、高可用

(1)在Spark Master节点上配置主Master,配置spark-env.sh

SPARK_DAEMON_JAVA_OPTS="

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=node02:2181,node03:2181,node04:2181

-Dspark.deploy.zookeeper.dir=/var/hadoop/zk"

(2)发送到其他worker节点上

(3)找一台节点(非主Master节点)配置备用
Master,修改spark-env.sh配置节点上的HOST/MasterIP

export SPARK_MASTER_HOST=node02

(4)启动集群之前启动zookeeper集群:

(5)启动spark Standalone集群,启动备用Master

(6)打开主Master和备用Master WebUI页面,观察状态

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值