深度预警:Spark运行原理

最新推荐文章于 2024-09-21 00:40:10 发布

yiyidsj

最新推荐文章于 2024-09-21 00:40:10 发布

阅读量281

点赞数

分类专栏：大数据人工智能互联网文章标签： Spark 大数据大数据学习大数据开发大数据分析

本文链接：https://blog.csdn.net/yiyidsj/article/details/104197147

版权

本文深入探讨Spark的专业术语，包括Application、Driver、Cluster Manager、Executor、Worker等概念，并详细阐述Spark的任务提交机制，涵盖Standalone、YARN-Client和YARN-Cluster模式。通过对Spark运行流程的解析，帮助读者理解Spark在大数据处理中的工作方式。

摘要由CSDN通过智能技术生成

本文主要分以下章节：

一、Spark专业术语定义

二、 Spark的任务提交机制

一、Spark专业术语定义

1、Application：Spark应用程序

指的是用户编写的Spark应用程序，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。

Spark应用程序，由一个或多个作业JOB组成，如下图所示:

深度预警:Spark运行原理

image

2、Driver：驱动程序

Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常SparkContext代表Driver，如下图所示:

深度预警:Spark运行原理

image

3、Cluster Manager：资源管理器

指的是在集群上获取资源的外部服务，常用的有：Standalone，Spark原生的资源管理器，由Master负责资源的分配；Haddop Yarn，由Yarn中的ResearchManager负责资源的分配；Messos，由Messos中的Messos Master负责资源管理，如下图所示:

深度预警:Spark运行原理

image

4、Executor：执行器

Application运行在Worker节点上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，每个Application都有各自独立的一批Executor，如下图所示:

深度预警:Spark运行原理

image

5、Worker：计算节点

集群中任何可以运行Application代码的节点，类似于Yarn中的NodeManager节点。在Standalone模式中指的就是通过Slave文件配置的Worker节点，在Spark on Yarn模式中指的就是NodeManager节点，在Spark on Messos模式中指的就是Messos Slave节点，如下图所示:

深度预警:Spark运行原理