下载scala 2.10.4 安装scala
解压:tar -zxvf scala.xxx.tgz
配置环境变量:我的在/etc/bash.bashrc
加到之前配置的后面就可以了。
测试scala 就用 scala -version
接着安装spark 下载 spark-1.4.0-bin-hadoop2.6 tgz 包 然后解压到用户目录
cd conf 目录
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
然后 更改 nano conf/spark-env.sh
在末尾添加
export SCALA_HOME=/home/xxxxxxxxxxxxxxxx
export JAVA_HOME=/home/xxxxxxxxxxxxxxxx
export SPARK_MASTER_IP=192.168.1.113
export SPARK_WORKER_MEMORY=512M
接着修改slaves 文件
cp slaves.template slaves
在里面添加 slaves 集群的 ip 192.168.1.115和192.168.1.116
然后把scala 和 spark 配置好后的 文件夹 分发到各个slave 节点。
scp -r scala-2.10.4/ luis@192.168.1.115:~/
scp -r spark-1.4.0-bin-hadoop2.6/ luis@192.168.1.115:~/
scp -r scala-2.10.4/ luis@192.168.1.116:~/
scp -r spark-1.4.0-bin-hadoop2.6/ luis@192.168.1.116:~/
接着进入spark sbin 目录 运行 start-all.sh 脚本。把spark 起来。
默认8080 是查看状态端口。
测试用例:
./bin/run-example SparkPi
当任务执行的过程4040 是任务端口。但是当任务执行完了,4040端口是被封的。
注意,可以不给slave 机器配置 scala 和 spark 的环境变量。
没有影响。