预备:我使用了两个centos的虚拟机来做的集群环境,一个名称为master一个名称slave
配置文件在/etc/hosts文件中
127.0.0.1 zzt
192.168.111.129 master
192.168.111.130 slave
1.准备scala环境,下载地址:http://www.scala-lang.org/download/2.11.5.html
2.配置scala环境变量
3.更新.bash_profile文件,使之生效
. .bash_profile
4.测试scala环境
5.安装spark,下载地址http://spark.apache.org/downloads.html
6.使用tar -zxvf 命令将spark的压缩包,解压到/usr目录下(你可以自己指定目录,但是在配置环境变量的时候需要将路径指定到你的安装目录就可以了)
7.复制一份spark-env.template文件到同目录下的spark-env.sh
8.在spark-env.sh文件中添加环境变量,
9.复制slaves.template到同目录下的slaves
10.添加slave节点到slaves文件中
11.上面所有的配置都需要在slave机器上有相同的配置,所以直接使用scp拷贝过去就可以了
12.到这里,我们就可以在master机器上启动spark了
启动完成后,使用jps查看
发现多了一个Master进程
在slave机器上,多了一个Worker进程
验证一下:访问master机器的8080端口,查看spark集群信息
配置好环境后,又试着将自己的一个demo打包成jar提交到环境中运行了下,期间碰到许多问题,但是后面还是一一解决并且成功运行了WordCount例子,到此,spark应该算是入门了吧,!
如果在搭建环境的时候遇到什么问题,欢迎留言,我会在第一时间回复,谢谢!