一、安装spark依赖的内容
1. JDK
Spark由scala语言编写,但是仍然运行在JVM下
2. Scala
由Scala语言编写,代码依赖Scala环境进行编译
3. SSH免密码登陆
这一步的作用是,使得集群节点可以无密码访问
4. Hadoop
Hdfs作为spark的存储环境,所以需要安装,本文配置的spark支持spark on yarn,因此Hadoop也是安装的yarn版本的
5. Spark
安装Spark,执行spark代码
6. 备注:
① 我的所有操作均在/home/jiang这个文件夹下,用户名也为jiang
② 加“***”标记时,表示所有机器均要执行,否则,会做详细说明
③ 我的软件包配置:jdk1.7.0_79 ,Scala-2.9.3,hadoop-2.5.2,spark-1.1.0
所有软件的下载请点击这里:http://pan.baidu.com/s/1dDEtS1z
二、基础环境
1. 我的服务器分布
IP地址 主机名 功能
192.168.1.25 dmdb-25 主节点(master)同时当做备份节点
192.168.1.26 node2 数据节点
192.168.1.23 node3 数据节点
2. 具体操作:
要形成上述的服务器分布,第一步就是修改各个机器的主机名。***
$ vi /etc/hostname
第二步,配置hosts ***
$ vi /etc/hosts
最后通过ping命令可以检查配置是否正确。***
$ ping node2
3. SSH免密码登陆
第一步:在所有机器上都生成公钥私钥(这期间一路回车即可)***
$ ssh-keygen -t rsa -P ‘’
第二步:将公钥写入信任文件,并修改信任文件的权限 ***
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 600 ~/.ssh/authorized_keys
第三步:将每台机器的公钥发给master结点(仅在数据节点执行)
$ scp authorized_keys jiang@192.168.1.25:/home/jiang/.ssh/ 或者
$ scp authorized_keys jiang@dmdb-25:/home/jiang/.ssh/
至此,主节点可以免密码登陆子节点,(第一次登陆需要输入密码)
如果需要各子节点之间也能够互相通信,就将master结点的authorized_keys分发给每台子节点:
eg: $ scp ~/.ssh/authorized_keys jiang@node2:~/.ssh/
三、JDk安装与配置 ***
1. 在/home/jiang目录下直接解压
$ tar -zxvf jdk-7u79-linux-x64.tar.gz
2. 将解压后的文件夹重命名为jdk1.7.0_79
$ mv jdk-7u79-linux-x64 jdk1.7.0_79
3. 配置环境变量
$ sudo vi /etc/profile
配置如下:
export JAVA_HOME=/home/jiang/jdk1.7.0_79
export JRE_HOME=/home/jiang/jdk1.7.0_75/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
4. 使环境变量生效
$ source /etc/profile
5. 检验是否安装成功
$ java -version
四、Scala安装与配置 ***
做法与JDk的相似,环境变量的配置如下:
export SCALA_HOME=/home/jiang/scala-2.9.3
export PATH=$PATH:$SCALA_HOME/bin
注意最后使环境变量生效!!!
五、Hadoop安装
1. 解压到/home/jiang/hadoop-2.5.2 ***
2. 配置环境变量 ***
$ sudo vi /etc/profile
配置如下:
export HADOOP_HOME=/home/jiang/hadoop-2.5.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}
3. $ source /etc/profile ***
4. 进入hadoop-2.5.2/etc/hadoop/,在该目录下需要配置7个文件:hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,yarn-env.sh,slaves,masters ***
① $ vi hadoop-env.sh
加上 export JAVA_HOME=/home/jiang/jdk1.7.0_79
② $ vi core-site.xml
③ $ vi hdfs-site.xml
④ $ vi mapred-site.xml
⑤ $ vi yarn-site.xml
⑥ $ vi yarn-env.sh
加上 export JAVA_HOME=/home/jiang/jdk1.7.0_79
⑦ $ vi slaves
将localhost去掉,加上node2等子节点,一行一个
⑧ $ vi masters
写上主节点dmdb-25。(可能没有masters文件,该操作会创建一个)
注:有出现mapred-site.xml.template这样的文件时,将其进行合并:
$ mv mapred-site.xml.template mapred-site.xml
5. 因为所有机器的配置相同,所以上述操作在一台机器上完成后,复制到其他的主机上,在/home/jiang目录下:$ scp -r hadoop-2.5.2 node2:/home/jiang/
6. 格式化hadoop(仅在主节点上进行)
在/home/jiang/hadoop-2.5.2/bin目录下:$ hadoop namenode -format
7. hadoop集群安装完成,启动(仅在主节点进行)
在/home/jiang/hadoop-2.5.2/sbin目录下启动Hdfs:$ start-dfs.sh
在同样的目录下启动yarn:$ start-yarn.sh
8. 验证 ***
$ jps
在主节点应该有:Jps,NameNode,ResourceManager,SecondaryNameNode
子节点:Jps,DataNode,NodeManager
通过网址:dmdb-25:50070可以查看Hdfs的管理界面
dmdb-25:8088可以看到Yarn的管理界面
9. 关闭(仅在主节点)
$ stop-dfs.sh 关闭hdfs
$ stop-yarn.sh 关闭yarn
六、Spark安装
1. 解压到目录/home/jiang/spark-1.1.0 ***
2. 配置环境变量 ***
$ sudo vi /etc/profile
配置如下:
export SPARK_HOME=/home/jiang/spark-1.1.0
export PATH=$PATH:$SPARK_HOME/bin
3. $ source /etc/profile ***
4. 进入spark-1.1.0/conf/目录,需要编辑两个文件:spark-env.sh,slaves ***
① $ vi spark-env.sh
② $ vi slaves
增加所有的子节点主机名,node2,一行一个
5. 在spark-1.1.0/sbin/目录下启动spark集群(仅在master结点)
6. 验证 $ jps ***
已启动进程:yarn(ResourceManager) 、spark(Master)、hdfs(NameNode)、SecondaryNameNode
上图显示的是master,在子节点jps会看到Jps、NodeManager、Worker、DataNode
通过网址:dmdb-25:8089查看spark集群
7. 运行例子(仅在主节点)
任务的提交有两种,提交到集群或者提交到yarn。
用spark-submit提交作业的方式运行spark自带的计算Pi的例子,在目录/home/jiang/spark-1.1.0/lib/下可以看到jar包spark-examples-1.1.0-hadoop2.4.0.jar,
① 提交到集群,在/home/jiang/spark-1.1.0目录下运行:
$ ./bin/spark-submit --master spark:dmdb-25:7077
--class org.apache.spark.examples.SparkPi
/home/jiang/spark-1.1.0/lib/spark-examples-1.1.0-hadoop2.4.0.jar
其中,--master 表示提交任务的方式,--class表示主类,运行结果可以输出中看到:
并且可以通过spark的集群管理页面dmdb-25:8089看到任务的提交:
② 提交到yarn,在/home/jiang/spark-1.1.0目录下运行:
$ ./bin/spark-submit --master yarn-client
--class org.apache.spark.examples.SparkPi
--executor-memory 400m
--driver-memory 400m
/home/jiang/spark-1.1.0/lib/spark-examples-1.1.0-hadoop2.4.0.jar
通过yarn的管理界面dmdb-25:8088查看:
七、安装错误解决
1. 格式化hadoop时,出现“找不到hadoop命令”
解决办法:我的机器出现这个问题是因为拷贝过来的hadoop文件夹是root权限,
而hadoop的使用者是jiang,应该直接拷贝压缩包,然后解压,权限就是jiang
用户。出现这个问题还有可能是配置文件/etc/profile没有配好。
2. 启动hdfs的时候出现:org.apache.hadoop.ipc.RemoteException:org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create............... Name node is in safe mode.
解决方法:关闭安全模式
bin/hadoop dfsadmin -safemode leav
3. 停止hadoop时,出现”no datanode to stop”
解决办法:在每个节点都执行,删除目录/home/jiang/hadoop-2.5.2/dfs/data,删除
data文件夹,然后重新格式化hadoop。
4. 在提交作业到yarn上时,遇到如下警告:
WARN YarnClientClusterScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory
解决方法:修改配置文件spark-env.sh,根据自己机器的实际情况分配内存大小
5. 停止yarn时,出现”no DataManager to stop”
解决办法:查看日志发现是hadoop下的配置文件yarn-site.xml出现了异常字符。重新配置即解决。
6. 错误信息:“no route to host”
解决办法:关闭防火墙 $ sudo ufw disable
7. 启动spark时出现错误:
Error:[Association failed with [akka.tcp://sparkMaster@192.168.1.25:7077]].
解决办法:配置文件spark-env.sh中alone模式和yarn模式搞混淆了,重新配置正确。