Master 集群的领导者,负责集群资源管理,接收客户端提交的作业,向Worker发送命令
Worker 集群的执行者,分配具体的任务并执行下发的任务
Driver 一个Spark 作业运行时会启动一个Driver 进程,也是作业的主进程,负责作业的解析、生成Stage ,并调度Task 到Executor 上
Executor 分布在工作节点上,执行作业接收Driver命令加载和运行Task,一个Executor可执行多个Task
SparkContext 是程序运行调度的核心
DAGScheduler 负责高层调度,划分Stage并生成程序的DAG
TaskScheduler 负责具体stage内部的底层调度和具体task的调度与容错
Job 每个行动算子会触发Job,可以包含多个Stage
Stage 计算中间结果的Tasksets
Task 任务执行的工作单位,每个Task 会被发送到一个节点上,每个Task 对应RDD 的一个partition
RDD 是不可变的、Lazy 级别的、粗粒度的(数据集级别的而不是单个数据级别的)数据集合,包含了一个或多个数据分片,即partition