大数据学习笔记（二）：Spark

最新推荐文章于 2024-03-24 12:11:10 发布

我是码代码

最新推荐文章于 2024-03-24 12:11:10 发布

阅读量475

点赞数

分类专栏：大数据文章标签： spark 大数据 headoop

本文链接：https://blog.csdn.net/yimuta9538/article/details/104039530

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文仅提供一个入门概览，部分内容来源于网络，部分来源于自己理解，参考内容链接会在文末给出。

概述

Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境。它提供了 java,scala, python,R 等语言的调用接口。而且，Spark还支持丰富的高级工具集，包括用于SQL和结构化数据处理的SparkSQL，用于机器学习的MLlib，用于图形处理的GraphX和Spark Stream。

Spark 是专为大规模数据处理而设计的快速通用的计算引擎，是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，专门用于大数据量下的迭代式计算。它拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是，Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop。

1、Spark的常用术语

术语	描述
Application	Spark的应用程序，包含一个Driver program和若干Executor
SparkContext	Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node上的Executor
Driver Program	运行Application的main()函数并且创建SparkContext
Executor	是为Application运行在Worker node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上。每个Application都会申请各自的Executor来处理任务
ClusterManager	在集群上获取资源的外部服务(例如：Standalone、Mesos、Yarn)
Worker Node	集群中任何可以运行Application代码的节点，运行一个或多个Executor进程
Task	运行在Executor上的工作单元
Job	SparkContext提交的具体Action操作，常和Action对应
Stage	每个Job会被拆分很多组task，每组任务被称为Stage，也称TaskSet
RDD	是Resilient distributed datasets的简称，中文为弹性分布式数据集;是Spark最核心的模块和类
DAGScheduler	根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler
TaskScheduler	将Taskset提交给Worker node集群运行并返回结果
Transformations	是Spark API的一种类型，Transformation返回值还是一个RDD，所有的Transformation采用的都是懒策略，如果只是将Transformation提交是不会执行计算的
Action	是Spark API的一种类型，Action返回值不是一个RDD，而是一个scala集合；计算只有在Action被提交的时候计算才被触发。

2、运行模式

运行环境	模式	描述
Local	本地模式	常用于本地开发测试，如在eclipse，idea中写程序测试等。本地还分为local单线程和local-cluster多线程
Standalone	集群模式	Spark自带的一个资源调度框架，支持完全分布式。存在的Master单点故障可由ZooKeeper来实现HA
Yarn	集群模式	运行在yarn资源管理器框架之上，由yarn负责资源管理，Spark负责任务调度和计算
Mesos	集群模式	运行在mesos资源管理器框架之上，由mesos负责资源管理，Spark负责任务调度和计算
Kubernetes	集群模式	运行在Kubernetes资源管理的集群上，目前Kubernetes调度程序是实验性的

3、Hadoop 和 Spark 的对比

4、Spark 提供的框架

伯克利大学将 Spark 的整个生态系统称为“伯克利数据分析栈(BDAS)”，在核心框架 Spark 的基础上，主要提供四个范畴的计算框架:

- Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构(类似 Hive) - Spark Streaming: 流式计算,主要用于处理线上实时时序数据(类似 storm) - MLlib: 提供机器学习的各种模型和调优 - GraphX: 提供基于图的算法,如 PageRank

关于四个模块更详细的可以参见：https://www.cnblogs.com/frankdeng/tag/Spark/的博文. 　　 Spark 的主要特点包括: - (1)提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销; - (2)提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs 的开销; - (3)使用多线程池模型减少 Task 启动开稍, shuffle 过程中避免不必要的 sort 操作并减少磁盘 IO 操作。(Hadoop 的 Map 和 reduce 之间的 shuffle 需要 sort)

5、Spark计算框架

组成：

　　Driver : 由SparkContext创建，运行在main方法，负责资源申请调度，程序分发，回收计算结果　　Cluster manager：获取集群内资源（模式standalone ，Mesos, YARN）的外部服务　　Worker node：集群中能够运行代码的节点　　Executor： work node上启动的一个进程，能够运行tasks，能在memory or disk上存储数据，每个application都有自己的excutors 　　Task：发送给excutor的一个执行单元（task是以thread形式执行）　　Job： actions生成的多个任务组成的并行计算　　Statge：每个job划分为阶段性的小型任务集合（一个节点上顺序完成的一次计算）

说明：

1，每个application都有自己的excutor进程,每个excutor可以多线程执行任务，存在整个application生命周期内，多个application之间互相独立（每个app对应一个jvm实例），所以多个spark application之间只能通过将数据写入外存储才能进行数据共享

2，spark与集群管理模式无关，只要获取到excutor，并且excutor之间能够互相通信，它就能在集群中运行

3，driver负责监听接收excutor，driver必须确保其它WorkNode能够通过网络地址寻找到excutor，driver负责管理集群上的task分发，把task运行在较近的worker nodes上, 　　如果执行task在远端的集群上，他会通过RPC方式提交operations到较近的节点运行task

Spark是以MapReduce为基础在其上进行功能扩展的集群计算框架，spark计算面向是RDD（resilient distributed dataset）数据源 RDD是编程抽象概念，代表可以跨机器进行分割的只读对象集合，所有对数据操作都需通过RDD来处理。

RDD操作：

　　create：通过hfile 或 scala collection作为数据源

　　transformation：处理计算转换，map，flatmap，filter

　　controler：对中间结果可存储在memory 或file供其它RDD数据复用

　　actions：驱动RDD执行计算

Spark程序是一个惰性计算，通过action调用来驱动代码被分发到集群上，由各个RDD分区上的worker来执行，然后结果会被发送回驱动程序进行聚合处理。即，驱动程序创建一个或多个RDD，调用transform来转换RDD，然后调用reduce处理被转换后的RDD。在程序处理数据过程中使用的是pipleLine方式。

备注：rdd之间的数据转换及处理需要dependence 衔接

参考文档：

https://www.cnblogs.com/frankdeng/tag/Spark/：Spark学习文档，包括原理、搭建操作、命令等

https://zhuanlan.zhihu.com/p/34436165：Spark 学习: spark 原理简述

https://www.cnblogs.com/happyxiaoyu02/p/11706285.html：Spark计算框架

https://github.com/apachecn/spark-doc-zh：Spark中文文档