Spark2:运行架构

一、运行架构

请添加图片描述

1.概念

• Application: 用户基于spark的代码,由一个Driver和多个Executor组成。
• Executor: 在工作节点(如standalone的Worker和yarn的NM)上的进程,可以运行task,也可以将数据保存在内存和磁盘中。每个应用程序都有自己的Executors。
• Task: 最小的工作单元,会被送往executor执行。它也是Stage 的子集,以并行度(分区数)来衡量,分区数是多少,则有多少个task,一个 task 对应一个RDD分区 ,如果数据来自HDFS,一个分区的数据就是一个 split 的数据。
• Job: 一个Job有许许多多的Task,每一个Action操作都会触发一个Job,可以在driver日志中观察到。
• Stage: 是Job的子集,一个job被拆分成许多的Stage,一个Stage包含多个Task。Stage是提交作业的最小单位,Stage之间彼此依赖。Stage回到shuffle会被拆分。可以在driver日志中观察到。

2.运行流程

Spark组件将用户的应用程序分解为内部执行任务并提供执行容器。

  • Driver Program (驱动程序)
  • Executor

资源管理为Spark组件提供资源管理和调度。

  • YARN(通用)
  • Standalone(Spark自带)

整体流程

在这里插入图片描述
在这里插入图片描述

当一个Spark应用被提交时,首先需要为这个应用构建起基本的运行环境,即由任务控制节点(Driver)创建一个SparkContext,由SparkContext负责和资源管理器(Cluster Manager)的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源;

资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着“心跳”发送到资源管理器上;

SparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAG调度器(DAGScheduler)进行解析,将DAG图分解成多个“阶段”(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交给底层的任务调度器(TaskScheduler)进行处理;Executor向SparkContext申请任务,任务调度器将任务分发给Executor运行,同时,SparkContext将应用程序代码发放给Executor;

任务在Executor上运行,把执行结果反馈给任务调度器,然后反馈给DAG调度器,运行完毕后写入数据并释放所有资源。

注意事项

在这里插入图片描述

二、Spark集群模式

集群模式Cluster Mode:将Spark运行应用在YARN集群或者框架自身集群Standalone,及Apache Mesos集群,启动多个JVM进程运行Task程序。 (http://spark.apache.org/docs/2.4.3)
在这里插入图片描述
在这里插入图片描述

三、执行组件

Spark核心组件包括RDD、Scheduler、Storage、Shuffle四部分。

1.RDD

RDD是Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。
在这里插入图片描述
持久化
在这里插入图片描述

2.Scheduler

Scheduler是Spark的调度机制,分为DAGScheduler和TaskScheduler。

3.Storage

Storage模块主要管理缓存后的RDD、shuffle中间结果数据和broadcast数据。
在这里插入图片描述

4.Shuffle

Shuffle分为Hash方式和Sort方式,两种方式的shuffle中间数据都写本地盘。
在这里插入图片描述

5.与Hadoop的区别

Reduce操作生成的结果,spark是存放在内存中的,MapReduce是写HDFS的。所以用户的操作中涉及到的reduce操作越多,Spark比MapReduce写HDFS的次数就越少,Spark的性能优势就越大。

参考

https://zhuanlan.zhihu.com/p/162713938
教授大数据内存的黄老师的PPT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是Yu欸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值