spark整体执行过程可分为四个步骤:
1.构建DAG(调用RDD上的方法)
2.DAGScheduler将DAG切分Stage(切分的依据是shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler
3.TaskScheduler调度Task(根据资源情况将Task调度到相应的Executor中)
4.Executor接收Task,然后将Task丢入到线程池中执行
构建DAG
DAG就是有向无环图,他表示数据的执行过程,有方向,无闭环
DAG描述多个RDD的转换过程,任务执行时,可以按照DAG的描述,执行真正的计算(数据被操作的一个过程)
DAG是有边界的:开始(通过SparkContext创建的RDD),结束(触发Action,调用run Job就是一个完整的DAG形成了,一旦触发Action就形成了一个完整的DAG)
一个RDD只是描述了数据计算过程中的一个环节,而DAG由一到多个RDD组成,描述了数据计算过程中的所有环节。
一个Spark Application中有多少个DAG,取决于触发了多少次Action。
下面是WordCount的一个执行过程图:
切分Stage
一个DAG中可能会产生多种不同类型和功能的Task,会有不同的阶段。
DAGScheduler可以将一个DAG切分成一到多个Stage,DAGScheduler切分的依据是shuffle(宽依赖)
那么为什么要切分Stage?
一个复杂的业务逻辑,比如将多台机器上具有相同属性的数据聚合到一台机器上,这个过程就叫做shuffle。
如果有shuffle,那么就意味着前面阶段产生结果后,才能执行下一个阶段,下一个阶段的计算要依赖上一个阶段的数据。
在同一个Stage中,会有多个算子,可以合并在一起,我们称其为pipeline(流水线:严格按照流程,顺序执行)
也就是说,只有这个任务有shuffle,就会切分Stage,要进行shuffle的RDD之间是宽依赖的关系,那么我们应该首先弄清楚什么是宽依赖,什么是窄依赖。
- 宽依赖和窄依赖:
RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。
窄依赖的一些算子与过程:
所以,窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用。
总结:窄依赖我们形象的比喻为独生子女。
宽依赖的一些算子与过程:
所以,宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition。
总结:窄依赖我们形象的比喻为超生。
而具有shuffle过程的RDD之间就是宽依赖的关系,shuffle的定义是洗牌,将数据打散,父RDD的一个分区中的数据如果给了子RDD的多个分区(只要存在这个可能),就是shuffle。
shuffle会有网络传输数据,但是网络传输,并不意味着就是shuffle。
调度Task
切分完Stage之后,先提交前面的Stage,执行完之后再提交后面的Stage,一个Stage会产生很多业务逻辑相同的Task,然后将这些Task以TaskSet的形式传递给TaskScheduler,然后TaskScheduler会将Task序列化(Task的实质是创建的类的实例,所以要经过序列化才能通过网络发送给其他Executor),根据资源情况,发送给Executor
Executor接收到Task后,先将Task反序列化,然后将Task用一个实现了Runnable接口的实现类包装起来,然后将该包装类丢入到线程池中,然后包装类的Run方法就会被执行,进而调度Task的计算逻辑。