spark概述、原理分析、集群部署快速上手

最新推荐文章于 2022-06-13 11:53:36 发布

zyj_369

最新推荐文章于 2022-06-13 11:53:36 发布

阅读量303

点赞数 1

分类专栏： spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/weixin_46122692/article/details/109020874

版权

本文详细介绍了Spark的概述，包括核心模块如Spark SQL、Streaming和MLlib。讨论了Spark的特点，与Hadoop的对比，并深入解析了Spark应用中的关键角色如Driver、Executor和Stage。此外，文章还涵盖了Spark的集群部署，包括Standalone模式和Yarn模式，以及如何在Yarn上设置高可用性。最后，提到了Spark历史服务的配置以保存应用程序的历史记录。

摘要由CSDN通过智能技术生成

在这里插入图片描述

一、spark概述

spark是什么？

在这里插入图片描述
spark是一种基于内存的快速的、通用、可扩展的大数据分析引擎

spark内置模块

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。
Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者ApacheHive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与SparkCore中的 RDD API高度对应。
Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计
算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，包括HadoopYARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

3.Spark特点
在这里插入图片描述

4.Spark与hadoop对比

相同点:都是拿着一堆服务器共同去做一件事情
不同点:

在这里插入图片描述

5.重要角色

Application:
Appliction都是指用户编写的Spark应用程序，其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码
Driver:
Spark中的Driver即运行上述Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中有SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭，通常用SparkContext代表Driver
Worker:
集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过slave文件配置的Worker节点，在Spark on Yarn模式下就是NoteManager节点
Executor: 某个Application运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Application都有各自独立的一批Executor，在Spark on Yarn模式下，其进程名称为CoarseGrainedExecutor Backend。一个CoarseGrainedExecutorBackend有且仅有一个Executor对象，负责将Task包装成taskRunner,并从线程池中抽取一个空闲线程运行Task，每一个oarseGrainedExecutor Backend能并行运行Task的数量取决与分配给它的cpu个数
Job: 包含多个Task组成的并行计算，往往由Spark Action触发生成，一个Application中往往会产生多个
Stage: 每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage，Stage的划分和调度是有DAGScheduler来负责的，Stage有非最终的Stage（Shuffle Map Stage）和最终的Stage（Result Stage）两种，Stage的边界就是发生shuffle的地方
Task:

最低0.47元/天解锁文章

zyj_369

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
spark概述、原理分析、集群部署快速上手

一、spark概述spark是什么？spark是一种基于内存的快速的、通用、可扩展的大数据分析引擎spark内置模块Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者ApacheHive版.
复制链接

扫一扫

专栏目录