本文仅提供一个入门概览,部分内容来源于网络,部分来源于自己理解,参考内容链接会在文末给出。
概述
Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境。它提供了 java,scala, python,R 等语言的调用接口。而且,Spark还支持丰富的高级工具集,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Stream。
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,专门用于大数据量下的迭代式计算。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop。
1、Spark的常用术语
术语 | 描述 |
---|---|
Application | Spark的应用程序,包含一个Driver program和若干Executor |
SparkContext | Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor |
Driver Program | 运行Application的main()函数并且创建SparkContext |
Executor | 是为Application运行在Worker node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。 每个Application都会申请各自的Executor来处理任务 |
ClusterManager | 在集群上获取资源的外部服务(例如:Standalone、Mesos、Yarn) |
Worker Node | 集群中任何可以运行Application代码的节点,运行一个或多个Executor进程 |
Task | 运行在Executor上的工作单元 |
Job | SparkContext提交的具体Action操作,常和Action对应 |
Stage | 每个Job会被拆分很多组task,每组任务被称为Stage,也称TaskSet |
RDD | 是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类 |
DAGScheduler | 根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler |
TaskScheduler | 将Taskset提交给Worker node集群运行并返回结果 |
Transformations | 是Spark API的一种类型,Transformation返回值还是一个RDD, 所有的Transformation采用的都是懒策略, 如果只是将Transformation提交是不会执行计算的 |
Action | 是Spark API的一种类型,Action返回值不是一个RDD,而是一个scala集合;计算只有在Action被提交的时候计算才 被触发。 |
2、运行模式
运行环境 | 模式 | 描述 |
---|---|---|
Local | 本地模式 | 常用于本地开发测试,如在eclipse,idea中写程序测试等。本地还分为local单线程和local-cluster多线程 |
Standalone | 集群模式 | Spark自带的一个资源调度框架,支持完全分布式。存在的Master单点故障可由ZooKeeper来实现HA |
Yarn | 集群模式 | 运行在yarn资源管理器框架之上,由yarn负责资源管理,Spark负责任务调度和计算 |
Mesos | 集群模式 | 运行在mesos资源管理器框架之上,由mesos负责资源管理,Spark负责任务调度和计算 |
Kubernetes | 集群模式 | 运行在Kubernetes资源管理的集群上,目前Kubernetes调度程序是实验性的 |
3、Hadoop 和 Spark 的对比
4、Spark 提供的框架
伯克利大学将 Spark 的整个生态系统称为“伯克利数据分析栈(BDAS)”,在核心框架 Spark 的基础上,主要提供四个范畴的计算框架:
- Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构(类似 Hive) - Spark Streaming: 流式计算,主要用于处理线上实时时序数据(类似 storm) - MLlib: 提供机器学习的各种模型和调优 - GraphX: 提供基于图的算法,如 PageRank
关于四个模块更详细的可以参见:https://www.cnblogs.com/frankdeng/tag/Spark/的博文. Spark 的主要特点包括: - (1)提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销; - (2)提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs 的开销; - (3)使用多线程池模型减少 Task 启动开稍, shuffle 过程中避免不必要的 sort 操作并减少磁盘 IO 操作。(Hadoop 的 Map 和 reduce 之间的 shuffle 需要 sort)
5、Spark计算框架
组成:
Driver : 由SparkContext创建,运行在main方法,负责资源申请调度,程序分发,回收计算结果 Cluster manager: 获取集群内资源(模式standalone ,Mesos, YARN)的外部服务 Worker node: 集群中能够运行代码的节点 Executor: work node上启动的一个进程,能够运行tasks,能在memory or disk上存储数据,每个application都有自己的excutors Task: 发送给excutor的一个执行单元(task是以thread形式执行) Job: actions生成的多个任务组成的并行计算 Statge: 每个job划分为阶段性的小型任务集合(一个节点上顺序完成的一次计算)
说明:
1, 每个application都有自己的excutor进程,每个excutor可以多线程执行任务,存在整个application生命周期内,多个application之间互相独立(每个app对应一个jvm实例), 所以多个spark application之间只能通过将数据写入外存储才能进行数据共享
2,spark与集群管理模式无关,只要获取到excutor,并且excutor之间能够互相通信,它就能在集群中运行
3,driver负责监听接收excutor,driver必须确保其它WorkNode能够通过网络地址寻找到excutor,driver负责管理集群上的task分发,把task运行在较近的worker nodes上, 如果执行task在远端的集群上,他会通过RPC方式提交operations到较近的节点运行task
Spark是以MapReduce为基础在其上进行功能扩展的集群计算框架,spark计算面向是RDD(resilient distributed dataset)数据源 RDD是编程抽象概念,代表可以跨机器进行分割的只读对象集合,所有对数据操作都需通过RDD来处理。
RDD操作:
create:通过hfile 或 scala collection作为数据源
transformation:处理计算转换,map,flatmap,filter
controler:对中间结果可存储在memory 或file供其它RDD数据复用
actions:驱动RDD执行计算
Spark程序是一个惰性计算,通过action调用来驱动代码被分发到集群上,由各个RDD分区上的worker来执行,然后结果会被发送回驱动程序进行聚合处理。 即,驱动程序创建一个或多个RDD,调用transform来转换RDD,然后调用reduce处理被转换后的RDD。在程序处理数据过程中使用的是pipleLine方式。
备注:rdd之间的数据转换及处理需要dependence 衔接
参考文档:
https://www.cnblogs.com/frankdeng/tag/Spark/:Spark学习文档,包括原理、搭建操作、命令等
https://zhuanlan.zhihu.com/p/34436165:Spark 学习: spark 原理简述
https://www.cnblogs.com/happyxiaoyu02/p/11706285.html:Spark计算框架
https://github.com/apachecn/spark-doc-zh:Spark中文文档