【Spark】源码分析之RDD的生成及stage的切分

最新推荐文章于 2021-10-06 14:35:33 发布

超新星X

最新推荐文章于 2021-10-06 14:35:33 发布

阅读量544

点赞数

分类专栏： Spark BigData 文章标签： RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xin93/article/details/80674497

版权

BigData 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

8 篇文章 1 订阅

订阅专栏

一、概述

Spark源码整体的逻辑（spark1.3.1）：

从saveAsTextFile（）方法入手

-->saveAsTextFile()

--> saveAsHadoopFile()

--> 封装hadoopConf，并传入saveAsHadoopDataset（）方法

--> 拿到写出流SaprkHadoopWriter，调用self.context.runJob(self,writeToFile)

--> runJob方法中，使用dagScheduler划分stage

--> submitJob开始提交作业

-->任务处理器的post方法启动线程，获取队列中的任务，并调用onRecevie()方法提交任务

-->调用handleJobSubmitted，使用newStage中的getParentStage方法对stage进行切分

-->getParentStage方法中，使用HashSet、Stack来存放stage和RDD，用栈来存储RDD主要是为了便于后面通过循环进行模式匹配，判断该RDD和父RDD的依赖关系，如果是宽依赖就会生成stage，如果是窄依赖，就会继续找父RDD

二、Spark源码详情

1. 在spark1.3.1的源码中，saveAsTextFile的关键代码在于它内部调用了saveAsHadoopFile（）方法。

2. 进入到saveAsHadoopFile()方法中，首先spark会对配置信息进行封装，然后将配置信息传入saveAsHadoopDataset( )方法

3. saveAsHadoopDataset()方法中将会拿到Spark的写出流，并调用runJob方法准备开始提交作业。

4. 进入runJob方法中，会使用dagScheduler进行stage的切分

5. submitJob开始提交作业

6. 获取finalRDD的分区数，并调用任务处理器的post方法，循环取出数据放入队列中

7. post方法中，将启动一个线程，将获取队列中的任务，并调用onRecevie()方法提交任务

8. 进入onReceive()，可以看到它是一个抽象类中的方法

9. 方法的实现在DAGScheduler中，对方法进行模式匹配。匹配到任务提交的方法后，调用handleJobSumitted提交任务

10. handleJobSubmitted中，使用newStage中的getParentStage方法对stage进行切分

11. getParentStage方法中，使用HashSet、Stack来存放stage和RDD，用栈来存储RDD主要是为了便于后面通过循环进行模式匹配，判断该RDD和父RDD的依赖关系，如果是宽依赖就会生成stage，如果是窄依赖，就会继续找父RDD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark】源码分析之RDD的生成及stage的切分

一、概述整体的逻辑：RDD的生成从saveAsTextFile（）方法入手。saveAsTextFile() --&gt; saveAsHadoopFile() --&gt; 封装hadoopConf，并传入saveAsHadoopDataset（）方法 --&gt; 拿到写出流SaprkHadoopWriter，调用self.context.runJob(self,writeToFile) --...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。