Spark作业工作流程

黑心大老板～

于 2024-03-29 13:57:34 发布

阅读量212

点赞数 7

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63713536/article/details/137143160

版权

本文详细解析了Spark应用中的核心组件如何协同工作，包括创建SparkContext、资源申请、任务调度等步骤，强调了计算资源的优化分配原则。

摘要由CSDN通过智能技术生成

Driver相当于指挥所，SparkContext相当于是指挥所里面的指挥官，用户提交一个任务由SparkContext指挥官来进行分配和申请资源执行。

1. 首先先构建 spark Application 的运行环境，生成 SparkContext 对象。

2.SparkContext 会向资源管理器注册并申请资源。（资源管理器：YARN、Mesos、standlone 等）

3. 资源管理器收到 sparkContext 的资源请求后，会为 Executor 分配资源并启动 Executor 进程。

4. 然后，SparkContext 会根据 RDD 依赖关系，构建 DAG 图，并提交给 DAG Scheduler，DAG Scheduler 会将 DAG 图分解成一个个的 Stage，每个 Stage 中都包含若干个任务，stage 相当于任务集合。

然后，再把 Stage 提交给下一个阶段 Task Scheduler，Task Scheduler 就是负责把任务分发到具体的节点上的。

5.Task Scheduler 拿到任务后并不是立即分发出去，而是等 Worker Node 主动过来申请运行 Task，Task Scheduler 接到申请后，会将任务返回给 Worker Node，由 Worker Node 的 Executor 分配线程去运行。

（但是，这么多的 Worker Node 来申请，Task Scheduler 应该发给谁呢？原则是优先本地节点运行（计算向数据靠拢）。）

6. 最后，Executor 运行的结果会逐级返回给 Task Scheduler，再返回到 DAG Scheduler，最后返回到 SparkContext 中，做最后的处理。（处理可以返回给用户，也可以写入 HDFS 中）。

7. 最后运行完毕后，就释放资源。

B站讲解视频：5_3.3.2 Spark 运行基本流程_哔哩哔哩_bilibili

黑心大老板～

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

黑心大老板～ CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

131万+: 周排名

19万+: 总排名

2960: 访问

: 等级

178: 积分

206: 粉丝

45: 获赞

10: 评论

34: 收藏

私信

关注

热门文章

最新评论

数仓分层架构
CSDN-Ada助手: 恭喜您在博客领域持续创作，文章“数仓分层架构”内容详实，阐述清晰。建议您在下一篇博客中可以深入研究数仓架构的实际应用案例，或者探讨数仓架构在大数据环境下的挑战与解决方案。希望您继续保持创作热情，为读者带来更多有价值的内容。
Spark作业工作流程
CSDN-Ada助手: 恭喜您撰写了关于“Spark作业工作流程”的精彩博客！不仅内容详实，而且结构清晰，让读者能够轻松理解。希望您能继续坚持创作，分享更多有价值的技术文章。建议您在下一篇博客中可以深入探讨Spark作业的性能优化策略，相信会吸引更多读者的关注。加油！
reduceByKey和groupByKey的区别
CSDN-Ada助手: 恭喜您写了这么有意义的博客！对于reduceByKey和groupByKey的区别，您解释得非常清晰明了。接下来，我建议您可以尝试写一篇关于如何优化Spark程序性能的文章，或者深入探讨一些常用的Spark算子的使用技巧。期待您更多的精彩内容！祝您创作愉快！
HDFS的安全模式
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
hadoop中HDFS的写流程
CSDN-Ada助手: 恭喜你写了第6篇博客！标题“hadoop中HDFS的写流程”听上去很有意思。我很高兴看到你持续创作，并分享有关Hadoop和HDFS的知识。你对Hadoop的理解和解释非常清晰，但我想知道下一步你是否可以深入探讨一下HDFS的读取流程呢？我相信你一定能够以自己独特的方式呈现出这个主题。期待你的下一篇博客！加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。