Spark Application、Job、Stage、Task有什么关系

一个Application由多个job组成,一个job由多个stage组成,一个stage由task组成。

Application

一个完整的Spark应用程序,包含多个Job,具体含多少个Job由action算子决定。
Spark Application运行再集群上时,主要由4个部分组成。
Driver:是一个JVM Process进程,spark应用程序就是运行在Driver上,由Driver执行。完成Cluster Manager与Executor之间进行协调。
Master:是一个JVM Process进程,主要负责资源调度和调度
Worker:1.存储RDD的某个或者某些Partition;2.启动线程和进程,对RDD上的Partition进行计算。
Executor:一个Woker上可以启动多个进程(Executor),由多个线程(task)组成;负责对RDD上Partition数据进行计算。
Application组成及其任务

Job

一个action算一个Job,每个Job负责完成一个的计算任务,由多个stage组成,具体含多少个stage由shuffle依赖决定。Job间时串行执行的,一个Job执行完成后才会执行下一个Job。

Stage

包含多少个task由最后一个分区数决定。各个stage之间按照顺序执行,宽窄依赖的边界就是stage的划分点(以shuffle为界,发生shuffle就会产生一个新的stage)。注意:最开始的action算子会创造一个stage,用以保证一个DAG至少由一个Stage。

Task

是一个Stage中的一个任务单元。负责对一个数据分区进行计算操作,可以并行执行。一个Satge的task个数由其末端RDD分区个数决定。如果该job有shuffle操作,则影响该stage个数的是shuffle算子的并行度。如果没有shuffle过程的化,影响task个数的是HDFS数据最开始的分区数。
Application组成

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

难得将就

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值