山东大学软件工程应用与实践: Spark(九) 代码分析

本文深入探讨了Spark的DAGScheduler在任务提交前的角色,包括创建Job、Stage划分及提交。通过分析DAGScheduler的数据结构,如jobId与stageId的关联、Stage管理以及RDD分区信息的维护。同时,介绍了DAGSchedulerEventProcessActor的生成过程,它在Akka框架中采用一对一监管策略,并在启动时如何与TaskSchedulerImpl交互,确保DAGScheduler的正常运行。
摘要由CSDN通过智能技术生成

2021SC@SDUSC


目录

创建和启动DAGScheduler


创建和启动DAGScheduler

DAGScheduler主要用于在任务正式交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建Job,将DAG中的RDD划分到不同的Stage,提交Stage,等等。创建DAGScheduler的代码如下:

@volatile private[spark] var dagScheduler: DAGScheduler = _
    dagScheduler = new DAGScheduler(this)

DAGScheduler的数据结构主要维护jobId和stageId的关系、Stage、ActiveJob,以及缓存的RDD的partitions的位置信息,代码如下:

private[scheduler] val nextJobId = new AtomicInteger(O) 
private[scheduler] def numTotalJobs: Int = nextJobId.get() 
private val nextStageId = new AtomicInteger(O)

private[scheduler] val jobIdToStageIds = new HashMap[Int, HashSet[Int]] 
private[scheduler] val stageIdToStage = new HashMap[Int, Stage] 
private[scheduler] val shuffleToMapStage = new Hash
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值