CentOS 6.7 安装Scala 2.10.4 和 Spark 1.6.0
(一)首先安装 Scala
(1)官网下载Scala 2.10.4
(2)解压到制定目录 tar -zxvf scala-2-10-4
(3)修改环境变量 sudo vim /etc/profile
# set scala 2.10.4 environment
export SCALA_HOME=/usr/local/scala-2.10.4
export PATH=.:$SCALA_HOME/bin:$PATH
(4) 使得修改生效 sudo source /etc/profile
(5)测试scala 是否生效
scala -version
(二)安装SPARK 1.6.0
(1)官网下载安装包
(2)解压到指定文件夹
(3)修改系统配置文件 sudo /etc/profile
(4)修改SPARK配置文件,spark-env.sh 和slaves文件
(5)测试Spark
首先启动hadoop start-all.sh
启动spark start-all.sh (注意要到spark目录下输入start-all.sh命令,因为hadoop目录下也有一个start-all.sh命令)
此时在master机器上多了一个Master进程
Node节点上多了一个worker进程。
到spark sbin目录下输入:spark-shell
(6)此时测试启动时报错
提示指定文件找不到,需要新建该文件。
启动没有错误信息了。
访问master:8080网页
可以看到两个worker处于活动状态。
输入master:4040 查看sparkshell页面。
scala和spark部署完毕。
(7)通过spark shell 测试spark集群(统计单词次数)
把spark 目录下的README.md 文件传输到hdfs 的input文件夹内
hadoop fs -put README.md /input
查看文件是否已经传输好
文件已经传输到位
在spark-shell中输入命令
可以看到文件中单词“Spark”的出现次数。
花费的时间和出现的次数可见。此外访问spark-shell UI 可以看到出现一个已完成的任务。
至此,Centos 6.7 下Scala与Spark的基础运行环境配置完毕。