spark学习-Task原理

Task原理:

1.Executor接收到了LaunchTask请求,将task封装成TaskRunner运行。

2.反序列化task,并通过网络拉取需要的文件、jar包等,然后运行task的run()方法。

3.调用RDD的iterator()方法,会针对task所对应的RDD的partition,执行我们自定义的function函数(算子)。

4.ShuffleMapTask阶段,计算完partition数据后,会使用shuffleManager的shuffleWrite,将数据分区之后写入对应的分区文件。

5.操作完成后,会有一个MapStatus发送给DAGScheduler中的MapOutPutTracker。

6.ResultTask阶段,会去MapOutPutTracker中拉取ShuffleMapTask输出的RDD数据,来执行shuffle等操作,包括自定义的算子和函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值