大数据学习笔记(二):Spark


本文仅提供一个入门概览,部分内容来源于网络,部分来源于自己理解,参考内容链接会在文末给出。

概述

Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境。它提供了 java,scala, python,R 等语言的调用接口。而且,Spark还支持丰富的高级工具集,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Stream。

Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,专门用于大数据量下的迭代式计算。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop。

1、Spark的常用术语

术语描述
ApplicationSpark的应用程序,包含一个Driver program和若干Executor
SparkContextSpark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor
Driver Program运行Application的main()函数并且创建SparkContext
Executor是为Application运行在Worker node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。 每个Application都会申请各自的Executor来处理任务
ClusterManager在集群上获取资源的外部服务(例如:Standalone、Mesos、Yarn)
Worker Node集群中任何可以运行Application代码的节点,运行一个或多个Executor进程
Task运行在Executor上的工作单元
JobSparkContext提交的具体Action操作,常和Action对应
Stage每个Job会被拆分很多组task,每组任务被称为Stage,也称TaskSet
RDD是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类
DAGScheduler根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler
TaskScheduler将Taskset提交给Worker node集群运行并返回结果
Transformations是Spark API的一种类型,Transformation返回值还是一个RDD, 所有的Transformation采用的都是懒策略, 如果只是将Transformation提交是不会执行计算的
Action是Spark API的一种类型,Action返回值不是一个RDD,而是一个scala集合;计算只有在Action被提交的时候计算才 被触发。

2、运行模式

运行环境模式描述
Local本地模式常用于本地开发测试,如在eclipse,idea中写程序测试等。本地还分为local单线程和local-cluster多线程
Standalone集群模式Spark自带的一个资源调度框架,支持完全分布式。存在的Master单点故障可由ZooKeeper来实现HA
Yarn集群模式运行在yarn资源管理器框架之上,由yarn负责资源管理,Spark负责任务调度和计算
Mesos集群模式运行在mesos资源管理器框架之上,由mesos负责资源管理,Spark负责任务调度和计算
Kubernetes集群模式运行在Kubernetes资源管理的集群上,目前Kubernetes调度程序是实验性的

3、Hadoop 和 Spark 的对比

img

4、Spark 提供的框架

伯克利大学将 Spark 的整个生态系统称为“伯克利数据分析栈(BDAS)”,在核心框架 Spark 的基础上,主要提供四个范畴的计算框架:

img

- Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构(类似 Hive) - Spark Streaming: 流式计算,主要用于处理线上实时时序数据(类似 storm) - MLlib: 提供机器学习的各种模型和调优 - GraphX: 提供基于图的算法,如 PageRank

关于四个模块更详细的可以参见:https://www.cnblogs.com/frankdeng/tag/Spark/的博文.    Spark 的主要特点包括: - (1)提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销; - (2)提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs 的开销; - (3)使用多线程池模型减少 Task 启动开稍, shuffle 过程中避免不必要的 sort 操作并减少磁盘 IO 操作。(Hadoop 的 Map 和 reduce 之间的 shuffle 需要 sort)

5、Spark计算框架

img

组成:

  Driver : 由SparkContext创建,运行在main方法,负责资源申请调度,程序分发,回收计算结果   Cluster manager: 获取集群内资源(模式standalone ,Mesos, YARN)的外部服务   Worker node: 集群中能够运行代码的节点   Executor: work node上启动的一个进程,能够运行tasks,能在memory or disk上存储数据,每个application都有自己的excutors   Task: 发送给excutor的一个执行单元(task是以thread形式执行)   Job: actions生成的多个任务组成的并行计算   Statge: 每个job划分为阶段性的小型任务集合(一个节点上顺序完成的一次计算)

说明:

1, 每个application都有自己的excutor进程,每个excutor可以多线程执行任务,存在整个application生命周期内,多个application之间互相独立(每个app对应一个jvm实例), 所以多个spark application之间只能通过将数据写入外存储才能进行数据共享

2,spark与集群管理模式无关,只要获取到excutor,并且excutor之间能够互相通信,它就能在集群中运行

3,driver负责监听接收excutor,driver必须确保其它WorkNode能够通过网络地址寻找到excutor,driver负责管理集群上的task分发,把task运行在较近的worker nodes上,   如果执行task在远端的集群上,他会通过RPC方式提交operations到较近的节点运行task

Spark是以MapReduce为基础在其上进行功能扩展的集群计算框架,spark计算面向是RDD(resilient distributed dataset)数据源 RDD是编程抽象概念,代表可以跨机器进行分割的只读对象集合,所有对数据操作都需通过RDD来处理。

RDD操作:

  create:通过hfile 或 scala collection作为数据源

  transformation:处理计算转换,map,flatmap,filter

  controler:对中间结果可存储在memory 或file供其它RDD数据复用

  actions:驱动RDD执行计算

Spark程序是一个惰性计算,通过action调用来驱动代码被分发到集群上,由各个RDD分区上的worker来执行,然后结果会被发送回驱动程序进行聚合处理。 即,驱动程序创建一个或多个RDD,调用transform来转换RDD,然后调用reduce处理被转换后的RDD。在程序处理数据过程中使用的是pipleLine方式。

备注:rdd之间的数据转换及处理需要dependence 衔接

 

参考文档:

https://www.cnblogs.com/frankdeng/tag/Spark/:Spark学习文档,包括原理、搭建操作、命令等

https://zhuanlan.zhihu.com/p/34436165:Spark 学习: spark 原理简述

https://www.cnblogs.com/happyxiaoyu02/p/11706285.html:Spark计算框架

https://github.com/apachecn/spark-doc-zh:Spark中文文档

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值