spark基本概念

转载 2018年04月17日 17:06:47

spark应用涉及的一些基本概念:
1.mater:主要是控制、管理和监督整个spark集群

2.client:客户端,将用应用程序提交,记录着要业务运行逻辑和master通讯。

3.sparkContext:spark应用程序的入口,负责调度各个运算资源,协调各个work node上的Executor。主要是一些记录信息,记录谁运行的,运行的情况如何等。这也是为什么编程的时候必须要创建一个sparkContext的原因了。

4.Driver Program:每个应用的主要管理者,每个应用的老大,有人可能问不是有master么怎么还来一个?因为master是集群的老大,每个应用都归老大管,那老大疯了。因此driver负责具体事务运行并跟踪,运行Application的main()函数并创建sparkContext。

5.RDD:spark的核心数据结构,可以通过一系列算子进行操作,当Rdd遇到Action算子时,将之前的所有的算子形成一个有向无环图(DAG)。再在spark中转化成为job,提交到集群执行。一个app可以包含多个job

6.worker Node:集群的工作节点,可以运行Application代码的节点,接收mater的命令并且领取运行任务,同时汇报执行的进度和结果给master,节点上运行一个或者多个Executor进程。

7.exector:为application运行在workerNode上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。每个application都会申请各自的Executor来处理任务。

spark应用(Application)执行过程中各个组件的概念:
1.Task(任务):RDD中的一个分区对应一个task,task是单个分区上最小的处理流程单元。

2.TaskSet(任务集):一组关联的,但相互之间没有Shuffle依赖关系的Task集合。

3.Stage(调度阶段):一个taskSet对应的调度阶段,每个job会根据RDD的宽依赖关系被切分很多Stage,每个stage都包含 一个TaskSet。

4.job(作业):由Action算子触发生成的由一个或者多个stage组成的计算作业。

5.application:用户编写的spark应用程序,由一个或者多个job组成,提交到spark之后,spark为application分派资源,将程序转换并执行。

6.DAGScheduler:根据job构建基于stage的DAG,并提交stage给TaskScheduler。

7.TaskScheduler:将Taskset提交给Worker Node集群运行并返回结果。

Spark的基本概念及工作原理

Spark作业: -Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源将程序转换并执行。 -Driver Program:运行Application的main(...
  • u013063153
  • u013063153
  • 2016-11-11 10:35:09
  • 744

SPARK中的基本概念

基本概念以下内容主要参考自《大数据Spark企业实战》一书(作者:王家林) Application:用户编写的Spark程序,包含Driver和Executor代码。 Driver:运行main函数并...
  • wy250229163
  • wy250229163
  • 2016-09-05 12:48:46
  • 400

Spark1.0.0 运行架构基本概念

Spark Application的运行架构由两部分组成:driver program(SparkContext)和executor。Spark Application一般都是在集群中运行,比如Spa...
  • book_mmicky
  • book_mmicky
  • 2014-05-13 15:23:35
  • 8121

spark on yarn 基本用法

两种模式: cluster mode client mode 启动shell: bin/spark-shell --master yarn-client bin/spark-...
  • u010670689
  • u010670689
  • 2017-02-21 16:07:08
  • 669

大数据Spark入门教程

  • 2016年04月16日 21:53
  • 2.36MB
  • 下载

spark概念、编程模型和模块概述

http://blog.csdn.net/pipisorry/article/details/50931274spark基本概念Spark一种与 Hadoop 相似的通用的集群计算框架,通过将大量数据...
  • pipisorry
  • pipisorry
  • 2016-03-19 15:34:33
  • 1684

Spark基本概念

Spark的基本概念
  • suchang1127
  • suchang1127
  • 2015-10-25 19:15:23
  • 447

spark基本工作原理

spark基本工作原理 spark基本原理是怎么样?包括哪些内容? 1、分布式 2、主要基于内存(一部分读取磁盘) 3、迭代式计算 下面用图来表示:...
  • u010220089
  • u010220089
  • 2015-10-31 20:28:22
  • 1491

流式大数据处理

  • 2017年08月24日 09:49
  • 1.74MB
  • 下载

Spark_for_Data_Science

  • 2017年10月07日 23:37
  • 13MB
  • 下载
收藏助手
不良信息举报
您举报文章:spark基本概念
举报原因:
原因补充:

(最多只允许输入30个字)