一、环境准备:
Linux系统:Centos6.8
Hadoop:2.6.4
JDK:1.8
Spark:2.4.7
下载Spark
选择spark对应的Hadoop版本
二、搭建环境:
1、解压Spark安装包
tar -zxvf spark-2.4.7-bin-hadoop2.6.tgz -C /usr/local
2、重命名Spark目录名(便于以后使用)
cd /usr/local # 进入local目录
mv spark-2.4.7-bin-hadoop2.6/ spark # 重命名
3、修改spark配置文件
(1)修改spark-env.sh文件
cd spark/conf #进入spark配置文件目录
# 将spark-env.sh.template文件复制一份并命名为spark-env.sh
cp spark-env.sh.template spark.env.sh
修改内容如下:
Ps: 请根据自己的实际环境路径修改
# JAVA_HOME
export JAVA_HOME=/usr/java/jdk1.8.0_171
# master-ip
export SPART_MASTER_HOST=master
# master-port
export SPART_MASTER_PORT=7077
# hadoop_conf
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.4/etc/hadoop
(2)修改slaves文件
# 复制slaves.template并命名为slaves
cp slaves.template slaves
# 编辑slaves
vim slaves
slaves添加内容如下:
Ps:先把Localhost删除再添加以下内容
4、分发spark文件到其他节点(slave1,slave2)
scp -r /usr/local/spark/ slave1:/usr/local
scp -r /usr/local/spark/ slave2:/usr/local
到这里就完成搭建Spark(local模式)集群的配置
5、启动Spark集群
Ps:启动Spark之前先启动Hadoop集群
# 进入spark/sbin目录
cd /usr/local/spark/sbin
# 启动Spark
./start-all.sh
启动成功后jps查看进程:
master的进程为Master
slave1,slave2 的为Worker
之后便去查看Spark的管理界面,查看集群状态
链接: http://master:8080/
这样就启动完成啦!
最后就是配置一下profile文件写入spark环境变量
vim /etc/profile
添加内容如下:
搭建Spark(Local模式)到此结束
扩展补充:
启动spark shell:(spark/bin下)
# ./spark-shell --master <master-url> (master-url用于指定spark运行模式)
./spark-shell --master local # 使用一个Worker线程本地化运行
./spark-shell --master local[*] # 本地运行spark,线程数与本机CPU核心数相同
./spark-shell --master local[N] # 使用N个Worker线程本地化运行
退出Spark shell:
Ctrl + z 或者 输入 :quit