Spark-on-Yarn

目录

1 Spark-on-Yarn

1.1 配置安装

1.1.1 安装hadoop环境

1.1.2 同步系统时间

1.1.3 spark配置

1.2 运行模式(cluster模式和client模式)

1.3 原理

1.4 总结SparkOnYarn

2 Spark-HA集群


1 Spark-on-Yarn

yarn是hadoop中的一个组件,统一的资源调度平台。

spark任务集群运行的一种方式

spark程序运行在yarn上,standalone是否需要启动?

不需要部署启动standalone集群,只需要配置jdk,yarn的配置路径。

官方文档:

http://spark.apache.org/docs/latest/running-on-yarn.html

1.1 配置安装

1.1.1 安装hadoop环境

  1. 安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。

补充配置一:

yarn默认情况下,只根据内存调度资源,所以spark on yarn运行的时候,即使通过--executor-cores指定vcore个数为N,但是在yarn的资源管理页面上看到使用的vcore个数还是1. 相关配置在capacity-scheduler.xml 文件:

<property>  

<name>yarn.scheduler.capacity.resource-calculator</name>  

<!-- <value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator</value> -->  

<value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value>  

</property>  

补充配置二:

修改所有yarn节点的yarn-site.xml,在该文件中添加如下配置

<property>

    <name>yarn.nodemanager.pmem-check-enabled</name>

    <value>false</value>

</property>

<property>

    <name>yarn.nodemanager.vmem-check-enabled</name>

    <value>false</value>

</property>

如果不配置这两个选项,在spark-on-yarn的client模式下,如果

内存不足,报错如下:

分析原因:内存溢出

说明:yarn.nodemanager.vmem-check-enabled是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true。

把配置分发到各台节点上:

# cd /root/apps/hadoop/etc/hadoop
[root@hdp-01 hadoop]# for i in 2 3 ;do scp capacity-scheduler.xml yarn-site.xml hdp-0$i:`pwd`;done

1.1.2 同步系统时间

1,手动设置同步时间:date -s 2018-03-09   date -s 09:30:20

2,利用命令同步时间  ntpdate 时间服务器

ntpdate命令没有,就使用 yum -y install  ntpdate 来安装该命令。

1.1.3 spark配置

  1. 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序将作为YARN的客户端用于提交任务

在spark-env.sh中配置

export JAVA_HOME=/usr/local/jdk1.8.0_131

export HADOOP_CONF_DIR=/root/apps/hadoop/etc/hadoop

该配置文件的作用,就是让spark程序可以找到yarn。

或者在/etc/profile中,配置 HADOOP_CONF_DIR

可以使用的是HADOOP_CONF_DIR   或者  YARN_CONF_DIR

重新source /etc/profile

启动HDFS和YARN后,就可以提交任务到yarn集群中。

 

1.2 运行模式(cluster模式和client模式)

任务提交到yarn集群中,没有分配到资源时的状态。

spark1.6中的提交方式: --master  yarn-client   yarn-cluster

1.cluster模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 2 \

--queue default \

lib/spark-examples*.jar \

100

spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi /root/apps/spark-2.2.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.2.0.jar 1000

cluster模式下的进程信息:

sparkSubmit:  仅仅是负责提交任务,提交完任务,功能结束。(standalone中,driver和sparksubmit在一起)

之前说的dag,stage,生成task,都是在AppMaster中完成的,(yarn-cluster模式下,driver是在AppMaster中)

资源可以DIY:

spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --driver-cores 2 --executor-cores 2 --executor-memory 1g  --num-executors 100 --class org.apache.spark.examples.SparkPi /root/apps/spark-2.2.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.2.0.jar 1000

--num-executors:   总的executor的个数

 

没有standalone模式,依然可以查看spark任务的DAG图

 

2.client模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode client \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 2 \

--queue default \

lib/spark-examples*.jar \

10

 

client模式下,没有了AppMaster,替代的是ExecutorLauncher,功能类似于AppMaster

spark-shell必须使用client模式

./bin/spark-shell --master yarn --deploy-mode client

 

3.两种模式的区别

cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。

client模式:Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-shell)

 

1.3 原理

cluster模式:

Spark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用。具体过程:

 

1. 由client向ResourceManager提交请求,并上传jar到HDFS上

这期间包括四个步骤:

a).连接到RM

b).从RM的ASM(ApplicationsManager )中获得metric、queue和resource等信息。

c). upload app jar 等 jar

d).设置运行环境和container上下文(launch-container.sh等脚本)

 

2. ResouceManager向NodeManager申请资源,创建Spark ApplicationMaster(每个SparkContext都有一个ApplicationMaster)

3. NodeManager启动ApplicationMaster,并向ResourceManager AsM注册

4. ApplicationMaster从HDFS中找到jar文件,启动SparkContext、DAGscheduler和YARN Cluster Scheduler

5. ResourceManager向ResourceManager AsM注册申请container资源

6. ResourceManager通知NodeManager分配Container,这时可以收到来自ASM关于container的报告。(每个container对应一个executor)

7. Spark ApplicationMaster直接和container(executor)进行交互,完成这个分布式任务。

 

client模式:

在client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executor container进行交互,并将最后的结果汇总。结束掉终端,相当于kill掉这个spark应用。一般来说,如果运行的结果仅仅返回到terminal上时需要配置这个。

客户端的Driver将应用提交给Yarn后,Yarn会先后启动ApplicationMaster和executor,另外ApplicationMaster和executor都 是装载在container里运行,container默认的内存是1G,ApplicationMaster分配的内存是driver- memory,executor分配的内存是executor-memory。同时,因为Driver在客户端,所以程序的运行结果可以在客户端显示,Driver以进程名为SparkSubmit的形式存在。

如果使用spark on yarn 提交任务,一般情况,优先使用cluster模式,该模式,Driver运行在集群中,其实就是运行在ApplicattionMaster这个进程中,如果该进程出现问题,yarn会重启ApplicattionMaster(Driver),SparkSubmit的功能就是为了提交任务。

如果使用交互式的命令行,必须用Client模式,该模式,Driver是运行在SparkSubmit进程中,因为收集的结果,必须返回到命令行(即启动命令的那台机器上),该模式,一般测试,或者运行spark-shell、spark-sql这个交互式命令行时使用

 

怎么查看spark-on-yarn的任务:

如果杀死一个application

先通过yarn application -list  查看当前yarn上的所有任务

然后通过 yarn application -kill  appId  杀死一个任务。

yarn application -kill application_1517581724315_0007

可以查看所有的yarn  application命令的参数

1.4 总结SparkOnYarn

1,spark的任务运行在yarn资源调度平台上。

spark-submit  --master yarn  --deploy-mode cluster   client      yarn-client  yarn-cluster

2,yarn集群的配置,spark的配置(HADOOP_CONF_DIR/YARN_CONF_DIR)

3,两种模式的区别:cluster,driver端(sparkCOntext的初始化,dag的生成,stage的切分,task的生成)  cluster,driver运行在 yarn集群的某一个container中(ApplicationMaster)

client模式下,driver运行在client上。

实际工作中,优先cluster模式,  自己测试,client模式

4,任务的资源可以自定义,--num-executors 可以指定任务使用的所有的cores。(可通过spark-submit来查看)

5,spark-shell,只能运行在client模式下

 

2 Spark-HA集群

secondaryname   namenode   edits(元素的日志文件) 合并的工作

HA:high  available   高可用   双机热备  7*24H   应用不能出问题

Master节点存在单点故障,要解决此问题,就要借助zookeeper,并且启动至少两个Master节点来实现高可靠,配置方式比较简单:

Spark集群重新规划:(新增一台master节点)

hdp-01,hdp-02是Master;

hdp-02 hdp-03 hdp-04 起Worker

安装配置zk集群,并启动zk集群,验证zk集群

停止spark所有服务,在master节点上执行(hdp-01)

# stop-all.sh

修改配置文件spark-env.sh,在该配置文件中删掉SPARK_MASTER_HOST并添加如下配置

# vim /root/apps/spark/conf/spark-env.sh

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01:2181,hdp-02:2181,hdp-03:2181 -Dspark.deploy.zookeeper.dir=/spark"

1.在hdp-01节点上修改slaves配置文件内容指定worker节点

# vim  /root/apps/spark/conf/slaves

2.在hdp-01上执行start-all.sh脚本,然后在hdp-02上执行start-master.sh启动第二个Master

 

连接spark集群的时候,指定多台master即可。

spark-shell --master spark://hdp-01:7077,hdp-02:7077

 

部署:

zookeeper

修改spark的配置文件,改成连接zookeeper的地址

正常启动spark集群。 在其他的一台机器上,单独启动Master。(start-master.sh)

当alive状态的master挂掉之后,就会自动切换到standby状态的master。

连接时,只需要指定多个master地址就可以了。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据私房菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值