文章目录
目标
你需要理解每个名词对应的组件或程序是用来干嘛的,有什么意义。
基本名词
-
Application:应用,就是程序员编写的Spark代码,如WordCount代码
-
Driver:驱动程序,就是用来执行main方法的JVM进程,里面会执行一些Drive端的代码,如创建SparkContext,设置应用名,设置日志级别…
-
SparkContext:Spark运行时的上下文环境,用来和ClusterManager进行通信的,并进行资源的申请、任务的分配和监控等
-
ClusterManager:集群管理器,对于Standalone模式,就是Master,对于Yarn模式就是ResourceManager/ApplicationMaster,在集群上做统一的资源管理的进程
-
Worker:工作节点,是拥有CPU/内存等资源的机器,是真正干活的节点
-
Executor:运行在Worker中的JVM进程!
-
RDD:弹性分布式数据集
-
DAG:有向无环图,就是根据Action形成的RDD的执行流程图—静态的图
-
Job:作业,按照DAG进行执行就形成了Job—按照图动态的执行
-
Stage:DAG中,根据shuffle依赖划分出来的一个个的执行阶段!
-
Task:一个分区上的一系列操作(pipline上的一系列流水线操作)就是一个Task,同一个Stage中的多个Task可以并行执行!(一个Task由一个线程执行),所以也可以这样说:Task(线程)是运行在Executor(进程)中的最小单位!
-
TaskSet:任务集,就是同一个Stage中的各个Task组成的集合!