spark内核源码深度剖析

最新推荐文章于 2021-08-21 20:57:47 发布

导演我死哪儿

最新推荐文章于 2021-08-21 20:57:47 发布

阅读量153

点赞数

分类专栏：大数据相关

本文链接：https://blog.csdn.net/yrsg666/article/details/100073933

版权

大数据相关专栏收录该内容

91 篇文章 1 订阅

订阅专栏

1.application
2.spark-submit
3.Driver
4.SparkContext
5.Master
6.Worker
7.Executor
8.job
9.DAGScheduler
10.TaskScheduler
11.ShuffleMapTask and ResultTask

1.提交spark应用程序的机器，首选是我们把自己编写的程序也就是application提交到此机器上
2、spark-submit我们用此命令来提交自己的程序
3、Driver，我们通过spark-submit提交程序的时候，其实会通过反射的方式，创建和构造一个DriverActor进程出来。Driver进程会执行我们的代码。我们编码时会先创建sparkconf继而构造sparkcontext。Driver会调用我们的sparkcontext,而sparkcontext在创建的时候会构造DAGScheduler和TaskScheduler，TaskScheduler会通过他对应的一个后台进程会调用我们集群中的Master节点，向master注册Application.Master接收到application注册的请求之后，会试用中自己的资源调度算法，在spark集群的worker上，为这个application启动多个executor。一个master对应多个worker，一个worker对应多个executor。master通知worker启动executor。worker会为application启动executor。executor启动之后首先是在反向注册到taskSchuster。这样taskschduler就管理到了executor。所有executor都反向注册到driver上之后，driver结束sparkcontext初始化。会继续执行我们自己编写的代码。执行代码的时候每遇到一个action，就会创建一个job.job会提交给DAGScheduler.DAGScheduler会将job划分为多个stage，然后每个stage创建一个taskset。每个taskset会被分配给taskScheduler。taskscheduler会把taskset中的每一个task提交到之前注册到这个taskscheduler的executor上执行，executor每接收到一个任务，都会用taskRunner来封装task，然后从线程池里取出一个线程执行这个task。taskrunner将我们编写的算法以及函数拷贝反序列化执行task.task分为两种，shufflemaptask和resulttask，只有最后一个stage是resulttask,之前的stage都是shufflermaptask.所以最后整个spark应用程序的执行，就是stage分批次作为taskset提交到executor执行，每个task针对RDD的一个partiton，执行我们定义的算子和函数。以此类推，直到所以操作执行完为止。
这里面涉及到几个算法。master的资源调度算法、DAGscheduler划分stage的stage分配算法、TASKScheduler分配taskset的task分配算法。

导演我死哪儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark内核源码深度剖析

1.application2.spark-submit3.Driver4.SparkContext5.Master6.Worker7.Executor8.job9.DAGScheduler10.TaskScheduler11.ShuffleMapTask and ResultTask1.提交spark应用程序的机器，首选是我们把自己编写的程序也就是application提交...
复制链接

扫一扫

专栏目录