第一步 下载spark的tar包
下载地址:http://spark.apache.org/downloads.html
第二步 部署
1.确保centos已经安装jdk1.8以上版本
2.可以不用安装haddoop和scala
3.将tar包拷贝到/usr/locla/spark目录里,进行解压
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz
4.进入cd spark-2.3.2-bin-hadoop2.7/conf,修改文件
cp conf/spark-env.sh.template conf /spark-env.sh
cp conf/slaves.template conf/slaves
5.打开修改spark-env.sh文件,
vi conf/spark-env.sh
在末尾加入:
export JAVA_HOME=/home/ycl/java/jdk1.8.0_171
export SCALA_HOME=/home/ycl/scala/scala-2.11.7 (可选)
export SPARK_MASTER_IP=SparkMaster
export SPARK_WORKER_MEMORY=2g
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
变量说明:
JAVA_HOME:Java安装目录
SCALA_HOME:Scala安装目录
SPARK_MASTER_IP:spark集群的Master节点的ip地址
SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小
SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目
SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目
6.其次,修改slaves文件
vi conf/slaves
加入:
localhost
7、运行spark
./sbin/start-master.sh
8、打开spark-shell
./bin/spark-shell