Spark运行结构简洁版

最新推荐文章于 2022-04-30 09:23:43 发布

十有八九

最新推荐文章于 2022-04-30 09:23:43 发布

阅读量116

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_44694973/article/details/95665835

版权

14 篇文章 0 订阅

订阅专栏

mappartition：把每个分区中的内容作为整体来处理

mapPartitionsWithIndex 函数作用同mapPartitions，不过提供了两个参数，第一个参数为分区的索引。

mappartition之前应该先设置分区repartition

partition 分区，默认为1，可以在local[] 设置，也可以parallelize的时候设置

TaskSetManager 实例管理 TaskSet 的生命周期

Stage (调度阶段)

DAGScheduler对这些依赖关系形成的DAG进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，放到一个partition分区里，遇见宽依赖进行Stage切分。放到一个partition分区里

Checkpoint 防止数据丢失，并且是多副本的方式，放在HDFS上

Spark运行基本流程参见下面示意图：
在这里插入图片描述

构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或YARN）注册并申请运行Executor资源；
资源管理器分配Executor资源并启动Executor，Executor运行情况将随着心跳发送到资源管理器上；
SparkContext构建成DAG图，将DAG图分解成Stage，并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序代码发放给Executor。
Task在Executor上运行，运行完毕释放所有资源。

Spark运行架构特点

每个Application获取专属的executor进程，该进程在Application期间一直驻留，并以多线程方式运行tasks。
Spark任务与资源管理器无关，只要能够获取executor进程，并能保持相互通信就可以了。
提交SparkContext的Client应该靠近Worker节点（运行Executor的节点)，最好是在同一个Rack里，因为Spark程序运行过程中SparkContext和Executor之间有大量的信息交换；如果想在远程集群中运行，最好使用RPC将SparkContext提交给集群，不要远离Worker运行SparkContext。
Task采用了数据本地性和推测执行的优化机制。

关注