1 系统环境
系统:CentOS 6.5 32bit。
版本:JDK 1.7,Hadoop 2.6.4,Spark 1.6.2,Scala 2.10(Spark1.6.2匹配Scala2.10版本)。
2 Hadoop环境搭建
参考《Hadoop环境搭建》进行hadoop环境搭建。
3 Scala环境配置
3.1 下载Scala
下载合适版本Scala,注意与Spark版本相匹配:
http://www.scala-lang.org/download/all.html
3.2 安装
解压即完成安装:
tar -xzvf scala-2.10.6.tgz
解压后可移动至合适位置。
3.3 设置环境变量
3.3.1 新建Scala的环境变量配置
vi /etc/profile.d/scala.sh
内容如下:
export SCALA_HOME=/xxx/.../scala-2.10.6
export PATH=$SCALA_HOME/bin:$PATH
3.3.2 给scala.sh分配权限
chmod 755 /etc/profile.d/scala.sh
3.3.3 使配置生效
. /etc/profile
测试代码:
HelloWorld.scala
object HelloWorld {
def main(args: Array[String]) {
println("hello world with scalain linux");
}
}
4 Spark安装配置
集群服务器配置以Hadoop配置为准。
4.1 安装
4.1.1 下载
到官网http://spark.apache.org/downloads.html 下载合适版本到自定路径。
4.1.2 解压
解压即完成安装:
tar -zxvf spark-1.6.2-bin-without-hadoop.tgz
解压后可移动至合适位置。
4.2 创建配置文件和脚本
进入安装目录下的conf文件夹,创建如下两个文件:
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.templatespark-defaults.conf
4.3 配置spark-env.sh
设置如下配置:
#export JAVA_HOME=/usr/java/jdk1.7.0_51 #若配置过则不再配,下同
#export SCALA_HOME=/xxx/.../scala-2.10.6
#export HADOOP_HOME=/usr/local/hadoop-2.7.0
exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_DIST_CLASSPATH=$(hadoopclasspath) #需预先配置HADOOP_HOME环境变量
export SPARK_MASTER_IP=192.168.1.100
export SPARK_WORKER_MEMORY=512m
export master=spark://192.168.1.100:7070
4.4 配置slaves
每行一个IP地址或主机名。
4.5 启动
先启动Hadoop集群。
4.5.1 在Spark根目录启动Spark
./sbin/start-all.sh
启动成功后,可以通过http://master:8080/ 访问集群环境,通过http://master:4040/jobs/查看jobs等信息。
关闭:
./sbin/stop-all.sh
4.5.2 进入spark-shell
./bin/spark-shell
4.5.3 运行自带示例
./bin/run-exampleSparkPi 10
4.6 验证
运行命令jps查看进程:
jps
4.6.1 服务器nn(spark的master节点)
xxxx Jps
xxxx Master
xxxx NameNode
xxxx SecondaryNameNode
xxxx ResourceManager
5 常见问题