spark整体执行过程详解

spark整体执行过程可分为四个步骤:

1.构建DAG(调用RDD上的方法)
2.DAGScheduler将DAG切分Stage(切分的依据是shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler
3.TaskScheduler调度Task(根据资源情况将Task调度到相应的Executor中)
4.Executor接收Task,然后将Task丢入到线程池中执行

在这里插入图片描述

构建DAG

DAG就是有向无环图,他表示数据的执行过程,有方向,无闭环
DAG描述多个RDD的转换过程,任务执行时,可以按照DAG的描述,执行真正的计算(数据被操作的一个过程)
DAG是有边界的:开始(通过SparkContext创建的RDD),结束(触发Action,调用run Job就是一个完整的DAG形成了,一旦触发Action就形成了一个完整的DAG)
一个RDD只是描述了数据计算过程中的一个环节,而DAG由一到多个RDD组成,描述了数据计算过程中的所有环节。
一个Spark Application中有多少个DAG,取决于触发了多少次Action。

下面是WordCount的一个执行过程图:

在这里插入图片描述

切分Stage

一个DAG中可能会产生多种不同类型和功能的Task,会有不同的阶段。
DAGScheduler可以将一个DAG切分成一到多个Stage,DAGScheduler切分的依据是shuffle(宽依赖)

那么为什么要切分Stage?
一个复杂的业务逻辑,比如将多台机器上具有相同属性的数据聚合到一台机器上,这个过程就叫做shuffle。
如果有shuffle,那么就意味着前面阶段产生结果后,才能执行下一个阶段,下一个阶段的计算要依赖上一个阶段的数据。
在同一个Stage中,会有多个算子,可以合并在一起,我们称其为pipeline(流水线:严格按照流程,顺序执行)

也就是说,只有这个任务有shuffle,就会切分Stage,要进行shuffle的RDD之间是宽依赖的关系,那么我们应该首先弄清楚什么是宽依赖,什么是窄依赖。

  • 宽依赖和窄依赖:

RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。

窄依赖的一些算子与过程:
在这里插入图片描述
所以,窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用。
总结:窄依赖我们形象的比喻为独生子女。

宽依赖的一些算子与过程:
在这里插入图片描述

所以,宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition。
总结:窄依赖我们形象的比喻为超生。

而具有shuffle过程的RDD之间就是宽依赖的关系,shuffle的定义是洗牌,将数据打散,父RDD的一个分区中的数据如果给了子RDD的多个分区(只要存在这个可能),就是shuffle。
shuffle会有网络传输数据,但是网络传输,并不意味着就是shuffle。

调度Task

切分完Stage之后,先提交前面的Stage,执行完之后再提交后面的Stage,一个Stage会产生很多业务逻辑相同的Task,然后将这些Task以TaskSet的形式传递给TaskScheduler,然后TaskScheduler会将Task序列化(Task的实质是创建的类的实例,所以要经过序列化才能通过网络发送给其他Executor),根据资源情况,发送给Executor

Executor接收到Task后,先将Task反序列化,然后将Task用一个实现了Runnable接口的实现类包装起来,然后将该包装类丢入到线程池中,然后包装类的Run方法就会被执行,进而调度Task的计算逻辑。

整体执行流程图:

在这里插入图片描述

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值