Spark 工作原理介绍

最新推荐文章于 2023-02-27 17:14:35 发布

ミク辉夜

最新推荐文章于 2023-02-27 17:14:35 发布

阅读量404

点赞数

文章标签： spark 大数据 big data

本文链接：https://blog.csdn.net/weixin_57321519/article/details/122218969

版权

Spark是什么

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有Hadoop MapReduce所具有的优点，但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中，从而不再需要读写HDFS，除此之外，一个MapReduce 在计算过程中只有map 和reduce 两个阶段，处理之后就结束了，而在Spark的计算模型中，可以分为n阶段，因为它内存迭代式的，我们在处理完一个阶段以后，可以继续往下处理很多个阶段，而不只是两个阶段。

　　因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。其不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台

Spark 的框架设计

所有的Spark应用程序都离不开SparkContext和Executor两部分，Executor负责执行任务，运行Executor的机器称为Worker节点，SparkContext由用户程序启动，通过资源调度模块和Executor通信。SparkContext和Executor这两部分的核心代码实现在各种运行模式中都是公用的，在它们之上，根据运行部署模式的不同，包装了不同调度模块以及相关的适配代码。

具体来说，以SparkContext为程序运行的总入口，在SparkContext的初始化过程中，Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。其中作业调度模块是基于任务阶段的高层调度模块，它为每个Spark作业计算具有依赖关系的多个调度阶段（通常根据shuffle来划分），然后为每个阶段构建出一组具体的任务（通常会考虑数据的本地性等），然后以TaskSets（任务组）的形式提交给任务调度模块来具体执行。而任务调度模块则负责具体启动任务、监控和汇报任务运行情况。

1. Spark 的工作流程原理

可以把spark的工作流程描述如下：

a. 构建Spark Application的运行环境（启动SparkContext）

b. SparkContext在初始化过程中分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块

c. SparkContext向资源管理器（可以是Standalone、Mesos、Yarn）申请运行Executor资源；

d. 由资源管理器分配资源并启动StandaloneExecutorBackend，executor，之后向SparkContext申请Task；

e. DAGScheduler将job 划分为多个stage,并将Stage提交给TaskScheduler;

g. Task在Executor上运行，运行完毕释放所有资源。

在我们使用spark-submit 提交了我们的应用程序的时候，提交spark的运用机器会通过反射的方式，创建和构造一个Driver进程，Driver进程执行Application程序，根据sparkConf中的配置初始SparkContext,在SparkContext 初始化的过程中会启动DAGScheduler和taskScheduler两个调度模块，同时taskSheduler通过后台进程，向Master注册Application，Master接到到了Application的注册请求之后，会使用自己的资源调度算法，在spark集群的worker上，通知worker为application启动多个Executor。之后Executor会向taskScheduler反向注册。Driver完成SparkContext初始化，并继续执行application程序，当执行到Action时，就会创建Job。并且由DAGScheduler将Job划分多个Stage,每个Stage 由TaskSet 组成，并将TaskSet提交给taskScheduler,taskScheduler把TaskSet中的task依次提交给Executor,Executor在接收到task之后，会使用taskRunner来封装task（TaskRuner主要将我们编写程序，也就是我们编写的算子和函数进行拷贝和反序列化）,然后，从Executor的线程池中取出一个线程来执行task。就这样Spark的每个Stage被作为TaskSet提交给Executor执行，每个Task对应一个RDD的partition,执行我们的定义的算子和函数。直到所有操作执行完为止。

Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。

在实际应用中，存在许多迭代式算法和交互式数据挖掘工具，这些应用场景的共同之处在于不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。而 Hadoop 中的 MapReduce 框架都是把中间结果写入到 HDFS 中，带来了大量的数据复制、磁盘 IO 和序列化开销，并且通常只支持一些特定的计算模式。而 RDD 提供了一个抽象的数据架构，从而让开发者不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同 RDD 之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘 IO 和序列化开销。

ミク辉夜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 工作原理介绍

Spark是什么Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有Hadoop MapReduce所具有的优点，但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中，从而不再需要读写HDFS，除此之外，一个MapReduce 在计算过程中只有map 和reduce 两个阶段，处理之后就结束了，而在Spark的计算模型中，可以分为n阶段，因为它内存迭
复制链接

扫一扫