一个Application由多个job组成,一个job由多个stage组成,一个stage由task组成。
Application
一个完整的Spark应用程序,包含多个Job,具体含多少个Job由action算子决定。
Spark Application运行再集群上时,主要由4个部分组成。
Driver:是一个JVM Process进程,spark应用程序就是运行在Driver上,由Driver执行。完成Cluster Manager与Executor之间进行协调。
Master:是一个JVM Process进程,主要负责资源调度和调度
Worker:1.存储RDD的某个或者某些Partition;2.启动线程和进程,对RDD上的Partition进行计算。
Executor:一个Woker上可以启动多个进程(Executor),由多个线程(task)组成;负责对RDD上Partition数据进行计算。
Job
一个action算一个Job,每个Job负责完成一个的计算任务,由多个stage组成,具体含多少个stage由shuffle依赖决定。Job间时串行执行的,一个Job执行完成后才会执行下一个Job。
Stage
包含多少个task由最后一个分区数决定。各个stage之间按照顺序执行,宽窄依赖的边界就是stage的划分点(以shuffle为界,发生shuffle就会产生一个新的stage)。注意:最开始的action算子会创造一个stage,用以保证一个DAG至少由一个Stage。
Task
是一个Stage中的一个任务单元。负责对一个数据分区进行计算操作,可以并行执行。一个Satge的task个数由其末端RDD分区个数决定。如果该job有shuffle操作,则影响该stage个数的是shuffle算子的并行度。如果没有shuffle过程的化,影响task个数的是HDFS数据最开始的分区数。