Spark的部署方式包括Standalone、YARN、Mesos,在我们学习Spark编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
1.2 Spark 部署依赖
Spark Standalone的运行依赖于JDK、Scala,本来是不依赖于Hadoop的,但Spark自带的许多演示程序都依赖于Hadoop HDFS,因此我们也部署了伪分布式的Hadoop。
本次部署是在centos 7.1上部署的,ip地址是192.168.1.91,主机名称是vm91,已经做好了ssh免登录。Spark各依赖组件的版本分别如下:
- JDK 1.8.0_71
- Scala 2.11.8
- Hadoop 2.6.0
scala下载
安装后,设置各组件的环境变量如下
# JDK Eenvironment Variables
export JAVA_HOME=/opt/jdk
export PATH=$PATH:$JAVA_HOME/bin
export JAVA_TOOL_OPTIONS=-Dfile.encoding=UTF-8
# Scala Eenvironment Variables
export SCALA_HOME=/opt/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin
# Hadoop Eenvironment Variables
export HADOOP_HOME=/opt/hadoop-2.6.0
export PATH