![](https://img-blog.csdnimg.cn/20200618083417350.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark面试题
999
胡子球手
谦虚请教
展开
-
Spark任务的基本运行流程简介
首先我们main方法,SparkContext会构建SparkApplication环境,SparkContext去申请资源(这里可以指 yarn ,mesos,standalone)来运行一个Executor。SparkContext会生成DAG有向无环图,碰到action算子就会执行一个job,按照宽窄依赖划分stage,一个stage里可以有一个或者多个task,多个task组成一个taskset,把这些taskset发送给taskScheduler,然后把任务发送给Executor执行,执行完之后关原创 2020-07-27 11:35:05 · 900 阅读 · 0 评论 -
Spark on yarn 提交作业的流程
on yarn集群模式的两种模式cluster模式client模式Yarn-client模式与Yarn-cluster模式的不同之处:Yarn-client模式,Driver运行在本地机器上;Yarn-cluster模式,Driver运行在Yarn集群上某的NodeManager节点上;Yarn-client模式会导致本地机器负责spark任务的调度,所以网课流量会激增;Yarn-cluster模式没有流量激增的问题Yarn-client的Driver运行在本地,通常来说本地机器和Yarn集原创 2020-05-26 15:01:20 · 3219 阅读 · 0 评论 -
Spark中的Driver和Executor的个人理解
Driver:Driver是Spark中Application也即代码的发布程序,可以理解为我们编写spark代码的主程序,因此只有一个,负责对spark中SparkContext对象进行创建,其中SparkContext对象负责创建Spark中的RDD(Spark中的基本数据结构,是一种抽象的逻辑概念)Driver的另外一个职责是将任务分配给各个Executor进行执行。任务分配的原则主要是就近原则,即数据在哪个Executor所在的机器上,则任务分发给哪个Exectuor。简单来说就是:Drive.原创 2020-05-25 18:04:05 · 4179 阅读 · 0 评论