Spark在Linux安装的单机--集群的不同安装模式步骤

最新推荐文章于 2023-11-10 15:21:35 发布

小A__

最新推荐文章于 2023-11-10 15:21:35 发布

阅读量343

点赞数

分类专栏： linux系统 Spark

本文链接：https://blog.csdn.net/xiaozelulu/article/details/82119194

版权

linux系统同时被 2 个专栏收录

54 篇文章 0 订阅

订阅专栏

Spark

2 篇文章 0 订阅

订阅专栏

本文包含三种模式安装：单机、Standalone、Yarn等
一、单机模式

       1).下载spark2.1.2.tar.gz
       2).解压安装：
          $>cd /home/hyxy/soft/
	      $>cp /mnt/hgfs/2.安装环境/download/apache-spark/spark-2.1.2-bin-hadoop2.7.tgz .
          $>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz 
	      $>ln -s spark-2.1.2-bin-hadoop2.7 spark
       3).配置环境变量
          修改【~/.bash_profile】,在文件尾部追加以下内容：
	      #spark install
	    	export SPARK_HOME=/home/hyxy/soft/spark
	    	export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
	      $>source ~/.bash_profile
       4).至此，单机版搭建完成！
          $>spark-shell
	   访问WebUI：HTTP://master:4040

说明：
如果现有的集群框架中存在MR的相关应用，同时相关的MR无法转换为Spark应用的，集群选型为Spark On Yarn；
如果现有的集群框架中只有Spark应用，那么建议采用spark Standalone模式；

二、Spark on Standalone 安装模式

1.复制三个文件,并修改：spark/conf/
		$>cp spack-env.sh.template   spark-env.sh
		$>cp slaves.template  slaves
		$>cp spark-defaults.conf.template  spark-defaults.conf
 修改：  $>gedit spark-env.sh
	         添加以下内容，注意：“=”附近无空格：
		     export JAVA_HOME=/home/hyxy/soft/jdk
		     export SPARK_MASTER_HOST=master
		     export SPARK_MASTER_PORT=7077
         $>cgedit slaves
	         添加工作节点(Worker)，如下：
		    master
		    slave1
		    slave2
        
	 2.远程scp复制spark安装目录至其它节点：slave1和slave2；
	     $>scp -r ~/soft/spark-2.1.2-bin-hadoop2.7/ hyxy@slave1:/home/hyxy/soft/
	     $>ln -s spark-2.1.2-bin-hadoop2.7 spark    //在Slave1节点上
	 3.分别修改slave1、slave2等的环境变量；并source
	 4.开启spark Standalone集群的守护进程
	     $>start-master.sh      //开启spark的Master守护进程 
	     $>start-slaves.sh      //开启spark的Worker守护进程
	 5.测试
	     访问WebUI界面：http://master：8080
             $>spark-shell --master spark://master:7077
	     观察WebUI的网页说明；

三、Spark on Yarn集群模式安装

      1).修改spark-env.sh文件，添加以下内容：
	      export HADOOP_CONF_DIR=/home/hyxy/soft/hadoop/etc/hadoop
	  2).测试：
	     开启hadoop：
	       $>zkserver.sh start
	       $>start-dfs.sh
	       $>start-yarn.sh
	     启动spark：
	       $>spark-shell --master yarn-client
	  3).注意：抛异常，资源调用超出上限，修改默认校验
	       修改{HADOOP_HOEM/etc/hadoop}/yarn-site.xml
	         <property>
		    <name>yarn.nodemanager.pmem-check-enabled</name>
		    <value>false</value>
		  </property>

		  <property>
		    <name>yarn.nodemanager.vmem-check-enabled</name>
		    <value>false</value>
		  </property>
        **
             分发至集群其它节点，重启Hadoop，即可！！