Spark学习笔记二：核心原理

阿毛33

于 2019-03-04 00:24:14 发布

阅读量205

点赞数

分类专栏：分布式文章标签： Spark 核心原理

本文链接：https://blog.csdn.net/ximibbb/article/details/88096752

版权

5 篇文章 0 订阅

订阅专栏

作业Job：RDD中由action操作生成的一个或多个调度阶段
调度阶段Stage：每个Job会因为RDD之间的依赖关系拆分多组任务集合（称为调度阶段，也叫作TaskSet任务集）调度阶段由DAGScheduler来划分，调度阶段有Shuffle Map Stage和Result Stage
任务Task：Spark实际执行应用的最小单元，分发到Executor上的工作任务
DAGScheduler：面向调度阶段的任务调度器，负责接收Spark应用提交的作业、根据RDD的依赖关系划分调度阶段、提交调度阶段给TaskScheduler
TaskScheduler：面向任务的调度器，接受DAGScheduler提交的调度阶段、分发任务到Work节点，由Work节点的Executor来运行任务

提交作业、划分调度阶段、提交调度阶段、提交任务、执行任务、获取执行结果

触发SparkContext的runJob方法提交作业
SparkContext的runJob方法进入DAGScheduler类的runJob方法，DAGScheduler提交作业、划分阶段
划分调度阶段：当某个RDD操作是Shuffle时，以该Shuffle操作为界限分为两个调度阶段
提交调度阶段：DAGScheduler
提交任务：根据调度阶段Partition个数拆分对应个数任务，组成任务集提交到TaskScheduler进行处理（一个任务集处理逻辑完全一样，不同的是对应处理的数据）。TaskScheduler收到任务集猴，每个任务均分配运行代码、数据分片、处理资源等。调用Worker上的Executor来执行任务
执行任务：对于ShuffleMapTask，最终返回DAGScheduler的一个MapStatus对象，保存了存储信息，将会成为下一阶段的任务需要获得的输入数据时的依据；对于ResultTask，返回的是计算结果。
获取计算结果：对于Executor的计算结果，根据结果的大小有不同的策略

应用程序之间
- 分配应用程序资源策略：
  - 应用程序运行在尽可能多的Worker上：不仅能充分使用集群资源，而且有利于数据处理的本地性
  - 应用程序运行在尽可能少的Worker上：适合CPU密集型（计算密集型）而内存使用较少的场景
作业及调度阶段之间
- 多个作业之间的调度：
  - FIFO调度
  - FAIR模式，配置Job执行的优先
- 任务之间的调度：
  - 让任务运行在数据本地性优先级高的节点上，甚至可以为此等待一定的时间

关注