SparkContext初始化原理剖析

最新推荐文章于 2023-09-26 13:23:08 发布

小鬼喵

最新推荐文章于 2023-09-26 13:23:08 发布

阅读量574

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxr717110454/article/details/80638607

版权

SparkContext初始化主要就干了三件事：创建TaskScheduler、DAGSCheduler、SparkUI

一、TaskScheduler的初始化机制

1、首先创建TaskScheduler，调createTaskScheduler（）

2、这里会做三件事情：1、创建TaskSchedulerImpl（这个就是我们平时说的TaskScheduler）2、创建SparkDeployScheduleBackend（它在底层会接收TaskSchedulerImpl的控制、实际上负责与Master的注册、Executor的反注册，task发送executor等操作）3、它会去调用TaskSchedulerImpl的init（）方法，创建SchedulePool调度池，它有不同的优先策略，比如FIFO

3、创建完TaskSchedulerImpl/SparkDeployScheduleBackend(2.1版本中是StandaloneScheduleBackend)/SchedulePool后，会调用TaskSchedulerImpl的star（）方法

4、在star（）方法内部，会去调用SparkDeployScheduleBackend的star（）方法

5、在SparkDeployScheduleBackend的star（）方法内，会去创建一个重要的组件--AppClient(2.1中是StandaloneAppClient)

6、AppClient会去启动一个线程，（spark内部使用的是和Scala Actor相似的Akka）创建一个ClientActor

7、ClientActor会去调用两个方法：registerWithMaster（）->tryRegisterAllMaster（）

8、最关键的事情发生了，ClientActor会向MasterCollector发送一个RegisterApplication（它是一个case Class，里面封装了Application的信息）

9、Application信息会被发送到Spark集群的Master上，然后就去找Worker，启动Executor

10、Executor启动后会反向注册到SparkDeployScheduleBackend

最后声明一点，TaskSchedulerImpl底层基于SparkDeployScheduleBackend来工作

二、DAGScheduler

这里不细说，它有一个DAGSchedulerEventProcessActor（线程），DAGScheduler底层基于这个组件来通信

三、SparkUI

就是我们通过4040端口能显示Application的运行状态，这里会启动一个jetty服务器来显示网页。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。