安装spark集群详细介绍

一、安装spark依赖的内容

1. JDK

    Sparkscala语言编写,但是仍然运行在JVM

2. Scala

    由Scala语言编写,代码依赖Scala环境进行编译

3. SSH免密码登陆

    这一步的作用是,使得集群节点可以无密码访问

4. Hadoop

    Hdfs作为spark的存储环境,所以需要安装,本文配置的spark支持spark on yarn,因此Hadoop也是安装的yarn版本的

5. Spark

   安装Spark,执行spark代码

6. 备注:

① 我的所有操作均在/home/jiang这个文件夹下,用户名也为jiang

② 加“***”标记时,表示所有机器均要执行,否则,会做详细说明

③ 我的软件包配置:jdk1.7.0_79 Scala-2.9.3hadoop-2.5.2spark-1.1.0

     所有软件的下载请点击这里:http://pan.baidu.com/s/1dDEtS1z

二、基础环境

1. 我的服务器分布

       IP地址         主机名       功能

     192.168.1.25              dmdb-25             主节点(master)同时当做备份节点

     192.168.1.26              node2                  数据节点

     192.168.1.23              node3                  数据节点

2. 具体操作:

   要形成上述的服务器分布,第一步就是修改各个机器的主机名。***

    $ vi /etc/hostname

第二步,配置hosts ***

$ vi /etc/hosts

最后通过ping命令可以检查配置是否正确。***

$ ping node2

3. SSH免密码登陆

第一步:在所有机器上都生成公钥私钥(这期间一路回车即可)***

$ ssh-keygen -t rsa -P ‘’

第二步:将公钥写入信任文件,并修改信任文件的权限 ***

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 600 ~/.ssh/authorized_keys

第三步:将每台机器的公钥发给master结点(仅在数据节点执行)

$ scp authorized_keys jiang@192.168.1.25:/home/jiang/.ssh/ 或者

$ scp authorized_keys jiang@dmdb-25:/home/jiang/.ssh/

至此,主节点可以免密码登陆子节点,(第一次登陆需要输入密码)

如果需要各子节点之间也能够互相通信,就将master结点的authorized_keys分发给每台子节点:

eg: $ scp ~/.ssh/authorized_keys jiang@node2:~/.ssh/

 

三、JDk安装与配置  ***

1. 在/home/jiang目录下直接解压

$ tar -zxvf  jdk-7u79-linux-x64.tar.gz

2. 将解压后的文件夹重命名为jdk1.7.0_79

$ mv jdk-7u79-linux-x64 jdk1.7.0_79

3. 配置环境变量 

$ sudo vi /etc/profile

配置如下:

export JAVA_HOME=/home/jiang/jdk1.7.0_79
export JRE_HOME=/home/jiang/jdk1.7.0_75/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

4. 使环境变量生效

   $ source /etc/profile

5. 检验是否安装成功

    $ java -version

四、Scala安装与配置  ***

做法与JDk的相似,环境变量的配置如下:

export SCALA_HOME=/home/jiang/scala-2.9.3

export PATH=$PATH:$SCALA_HOME/bin

注意最后使环境变量生效!!!

 

五、Hadoop安装

1. 解压到/home/jiang/hadoop-2.5.2   ***

2. 配置环境变量   ***

   $ sudo vi /etc/profile

配置如下:

export HADOOP_HOME=/home/jiang/hadoop-2.5.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}

3. $ source /etc/profile    ***

4. 进入hadoop-2.5.2/etc/hadoop/,在该目录下需要配置7个文件:hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlyarn-env.shslavesmasters   ***

① $ vi hadoop-env.sh

    加上 export JAVA_HOME=/home/jiang/jdk1.7.0_79

② $ vi core-site.xml

    

③ $ vi hdfs-site.xml

    

④ $ vi mapred-site.xml

    

⑤ $ vi yarn-site.xml

    

⑥ $ vi yarn-env.sh

    加上 export JAVA_HOME=/home/jiang/jdk1.7.0_79

⑦ $ vi slaves

    将localhost去掉,加上node2等子节点,一行一个

⑧ $ vi masters

    写上主节点dmdb-25。(可能没有masters文件,该操作会创建一个)

    注:有出现mapred-site.xml.template这样的文件时,将其进行合并:

$ mv mapred-site.xml.template mapred-site.xml

5.  因为所有机器的配置相同,所以上述操作在一台机器上完成后,复制到其他的主机上,在/home/jiang目录下:$ scp -r hadoop-2.5.2 node2:/home/jiang/

6.  格式化hadoop(仅在主节点上进行)

/home/jiang/hadoop-2.5.2/bin目录下:$ hadoop namenode -format

7.  hadoop集群安装完成,启动(仅在主节点进行)

/home/jiang/hadoop-2.5.2/sbin目录下启动Hdfs$ start-dfs.sh

在同样的目录下启动yarn$ start-yarn.sh

8.  验证 ***

$ jps

在主节点应该有:JpsNameNodeResourceManager,SecondaryNameNode

子节点:JpsDataNodeNodeManager

通过网址:dmdb-25:50070可以查看Hdfs的管理界面

          dmdb-25:8088可以看到Yarn的管理界面

9. 关闭(仅在主节点)

  $ stop-dfs.sh      关闭hdfs

  $ stop-yarn.sh     关闭yarn

六、Spark安装 

1. 解压到目录/home/jiang/spark-1.1.0    ***

2. 配置环境变量   ***

$ sudo vi /etc/profile

配置如下:

export SPARK_HOME=/home/jiang/spark-1.1.0
export PATH=$PATH:$SPARK_HOME/bin

3. $ source /etc/profile    ***

4. 进入spark-1.1.0/conf/目录,需要编辑两个文件:spark-env.shslaves   ***

① $ vi spark-env.sh

 

② $ vi slaves

  增加所有的子节点主机名,node2,一行一个

5.  在spark-1.1.0/sbin/目录下启动spark集群(仅在master结点)

6. 验证  $ jps    ***

  

  已启动进程:yarn(ResourceManager) spark(Master)hdfs(NameNode)、SecondaryNameNode

  上图显示的是master,在子节点jps会看到JpsNodeManagerWorkerDataNode

  通过网址:dmdb-25:8089查看spark集群

7. 运行例子(仅在主节点)

   任务的提交有两种,提交到集群或者提交到yarn

   用spark-submit提交作业的方式运行spark自带的计算Pi的例子,在目录/home/jiang/spark-1.1.0/lib/下可以看到jarspark-examples-1.1.0-hadoop2.4.0.jar

① 提交到集群,在/home/jiang/spark-1.1.0目录下运行:

$ ./bin/spark-submit --master spark:dmdb-25:7077        

                --class org.apache.spark.examples.SparkPi

           /home/jiang/spark-1.1.0/lib/spark-examples-1.1.0-hadoop2.4.0.jar

其中,--master 表示提交任务的方式,--class表示主类,运行结果可以输出中看到:

 

并且可以通过spark的集群管理页面dmdb-25:8089看到任务的提交:

 

② 提交到yarn,在/home/jiang/spark-1.1.0目录下运行:

$ ./bin/spark-submit --master yarn-client        

                --class org.apache.spark.examples.SparkPi

                --executor-memory 400m

                --driver-memory 400m

           /home/jiang/spark-1.1.0/lib/spark-examples-1.1.0-hadoop2.4.0.jar

通过yarn的管理界面dmdb-25:8088查看:

           

七、安装错误解决

1. 格式化hadoop时,出现“找不到hadoop命令”

解决办法:我的机器出现这个问题是因为拷贝过来的hadoop文件夹是root权限,

hadoop的使用者是jiang,应该直接拷贝压缩包,然后解压,权限就是jiang

用户。出现这个问题还有可能是配置文件/etc/profile没有配好。

2. 启动hdfs的时候出现:org.apache.hadoop.ipc.RemoteException:org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create............... Name node is in safe mode.

解决方法:关闭安全模式  

    bin/hadoop dfsadmin -safemode leav

3. 停止hadoop时,出现”no datanode to stop”

解决办法:在每个节点都执行,删除目录/home/jiang/hadoop-2.5.2/dfs/data,删除 

    data文件夹,然后重新格式化hadoop

4. 在提交作业到yarn上时,遇到如下警告:

WARN YarnClientClusterScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory

解决方法:修改配置文件spark-env.sh,根据自己机器的实际情况分配内存大小

5. 停止yarn时,出现”no DataManager to stop”

   解决办法:查看日志发现是hadoop下的配置文件yarn-site.xml出现了异常字符。重新配置即解决。

6.  错误信息:“no route to host

解决办法:关闭防火墙 $ sudo ufw disable

7.  启动spark时出现错误:

   Error:[Association failed with [akka.tcp://sparkMaster@192.168.1.25:7077]].

   解决办法:配置文件spark-env.shalone模式和yarn模式搞混淆了,重新配置正确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值