1、Scala 安装
http://www.scala-lang.org/files/archive/scala-2.10.3.tgz
# tar xvzf scala-2.10.3.tgz -C /usr/lib/
环境变量配置
export SCALA_HOME=/usr/lib/scala-2.10.3
export PATH=$SCALA_HOME/bin:$PATH
# scala -v
2、Maven 安装
下载maven到服务器,解压并安装
# tar xvzf apache-maven-3.1.1.tgz -C /usr/lib/
环境变量配置
export MAVEN_HOME=/usr/lib/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
安装成功.
3、Spark 编译
在Spark官网上可以下载到CDH4版本的hadoop对应Spark包,但目前无法下载到CDH5版本的Spark.
所以去Cloudera网站去下载 http://archive.cloudera.com/cdh5/cdh/5/
spark-1.2.0-cdh5.3.2.tar.gz 编译完成的部署包
spark-1.2.0-cdh5.3.2-src.tar.gz 源码包
由于编译完成的包下载后,看到有问题,少文件。所以就用Maven重新编译源码,得出新的部署包,当然,如果下载的部署包不存在问题,那么就不需要重新编译了。
编译需要make-distribution.sh脚本进行编译,可以打开进行查看,如需要编译包含hive等
需要进行以上配置到make-distribution.sh中,详细了解这个脚本就知道了。
然后执行./make-distribution.sh开始进行编译。(也可以执行mvn -DskipTests clean package进行编译,但是它不会生成部署包)
经过漫长的过程,编译成功。(由于这个过程需要下载很多jar,下载很慢,我当时也奋战了很久才弄成功的)
4、Spark 部署
hadoop-2.5.0-cdh5.3.2
hadoop lzo压缩
zookeeper-3.4.5 (Spark HA需要用到)
以上安装就不介绍了,资料很多。
解压部署包:
修改配置文件
export JAVA_HOME=/usr/java/jdk1.7.0_25
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.3.2
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.5.0-cdh5.3.2/etc/hadoop
export SCALA_HOME=/usr/lib/scala-2.10.1
#spark on standalone
export SPARK_WORKER_MEMORY=24G
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_CORES=24
#spark on yarn
export SPARK_EXECUTOR_INSTANCES=2
export SPARK_EXECUTOR_CORES=12
export SPARK_EXECUTOR_MEMORY=2G
export SPARK_DRIVER_MEMORY=3G
export SPARK_YARN_APP_NAME="Spark ON YARN"
#context
export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib
export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/home/hadoop/hadoop-2.5.0-cdh5.3.2/lib/native/
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/hadoop-2.5.0- cdh5.3.2/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave38:2181,slave54:2181,slave55:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_JAVA_OPTS="-Dspark.cores.max=12 -Dspark.kryoserializer.buffer.mb=30 -verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps -XX:MaxPermSize=256m -Dspark.local.dir=/tmp "
添加节点列表 slaves
拷贝到各个机器后启动Spark
./start-all.sh
启动 STANDBY
./start-master.sh