Spark On YARN中client和cluster的区别

最新推荐文章于 2023-04-17 23:14:59 发布

逆水行舟如何

最新推荐文章于 2023-04-17 23:14:59 发布

阅读量5.9k

点赞数 8

分类专栏： spark 文章标签： cluster和client的·区别 spark on yarn yarn运行流程 spark --submit

本文链接：https://blog.csdn.net/weixin_43823423/article/details/99678115

版权

spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1、首先我们来看一下yarn运行时的架构图

yarn的运行流程

用户向 YARN 中提交应用程序，其中包括 MRAppMaster 程序，启动 MRAppMaster 的命令，用户程序等。
ResourceManager 为该程序分配第一个 Container，并与对应的 NodeManager 通讯，要求它在这个 Container 中启动应用程序 MRAppMaster。
MRAppMaster 首先向 ResourceManager 注册，这样用户可以直接通过 ResourceManager查看应用程序的运行状态，然后将为各个任务申请资源，并监控它的运行状态，直到运行结束，重复 4 到 7 的步骤。
MRAppMaster 采用轮询的方式通过 RPC 协议向 ResourceManager 申请和领取资源。
一旦 MRAppMaster 申请到资源后，便与对应的 NodeManager 通讯，要求它启动任务。
NodeManager 为任务设置好运行环境（包括环境变量、JAR 包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。
各个任务通过某个 RPC 协议向 MRAppMaster 汇报自己的状态和进度，以让 MRAppMaster随时掌握各个任务的运行状态，从而可以在任务败的时候重新启动任务。
应用程序运行完成后，MRAppMaster 向 ResourceManager 注销并关闭自己。

2、AppMaster和Driver

上面了解了appmaster在yarn运行流程中的角色，再区分下AppMaster和Driver，任何一个yarn上运行的任务都必须有一个AppMaster，而任何一个Spark任务都会有一个Driver，Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)的进程，当然在Driver上你也可以做很多非Spark的事情，这些事情只会在Driver上面执行，而由SparkContext上牵引出来的代码则会由DAGScheduler分析，并形成Job和Stage交由TaskScheduler，再由TaskScheduler交由各Executor分布式执行。

所以Driver和AppMaster是两个完全不同的东西，Driver是控制Spark计算和任务资源的，而AppMaster是控制yarn app运行和任务资源的，只不过在Spark on Yarn上，这两者就出现了交叉，而在standalone模式下，资源则由Driver管理。在Spark on Yarn上，Driver会和AppMaster通信，资源的申请由AppMaster来完成，而任务的调度和执行则由Driver完成，Driver会通过与AppMaster通信来让Executor的执行具体的任务。

3、client与cluster的区别

对于yarn-client和yarn-cluster的唯一区别在于，yarn-client的Driver运行在本地，而AppMaster运行在yarn的一个节点上，他们之间进行远程通信，AppMaster只负责资源申请和释放(当然还有DelegationToken的刷新)，然后等待Driver的完成;而yarn-cluster的Driver则运行在AppMaster所在的container里，Driver和AppMaster是同一个进程的两个不同线程，它们之间也会进行通信，AppMaster同样等待Driver的完成，从而释放资源。

Spark里AppMaster的实现：org.apache.spark.deploy.yarn.ApplicationMaster

Yarn里MapReduce的AppMaster实现：org.apache.hadoop.mapreduce.v2.app.MRAppMaster

1、在yarn-client模式里

优先运行的是Driver(我们写的应用代码就是入口)，然后在初始化SparkContext的时候，会作为client端向yarn申请AppMaster资源，当AppMaster运行后，它会向yarn注册自己并申请Executor资源，之后由本地Driver与其通信控制任务运行，而AppMaster则时刻监控Driver的运行情况，如果Driver完成或意外退出，AppMaster会释放资源并注销自己。所以在该模式下，如果运行spark-submit的程序退出了，整个任务也就退出了。

2、在yarn-cluster模式里

本地进程则仅仅只是一个client，它会优先向yarn申请AppMaster资源运行AppMaster，在运行AppMaster的时候通过反射启动Driver(我们的应用代码)，在SparkContext初始化成功后，再向yarn注册自己并申请Executor资源，此时Driver与AppMaster运行在同一个container里，是两个不同的线程，当Driver运行完毕，AppMaster会释放资源并注销自己。所以在该模式下，本地进程仅仅是一个client，如果结束了该进程，整个Spark任务也不会退出，因为Driver是在远程运行的

3、提交任务：

YARN client

./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --deploy-mode client \  # can be client for cluster mode
  --executor-memory 20G \
  --num-executors 50 \
  /path/to/examples.jar

YARN cluster

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    lib/spark-examples*.jar \

最后总结一句：client在本地环境测试的时候经常使用，而cluster则是在生成环境中使用。

逆水行舟如何

关注

8
点赞
踩
41

收藏

觉得还不错? 一键收藏
2
评论
Spark On YARN中client和cluster的区别

1、首先我们来看一下yarn运行时的架构图yarn的运行流程用户向 YARN 中提交应用程序，其中包括 MRAppMaster 程序，启动 MRAppMaster 的命令，用户程序等。 ResourceManager 为该程序分配第一个 Container，并与对应的 NodeManager 通讯，要求它在这个 Container 中启动应用程序 MRAppMaster。 MRA...
复制链接

扫一扫

专栏目录