Spark入门

最新推荐文章于 2024-10-18 17:27:47 发布

梦如汐

最新推荐文章于 2024-10-18 17:27:47 发布

阅读量40

点赞数

分类专栏： Spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/weixin_45629153/article/details/132337031

版权

Spark 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一、Spark概述
1、简介：Spark 是一种基于内存的、快速的、通用的、可拓展的、大数据分析计算引擎。
目前Spark生态系统已发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等。
2、特点：快、易用、兼容；Spark是分布式计算框架
3、已经有了mapreduce，为什么要还有Spark？
第一、mapreduce中间结果放在磁盘，spark中间结果首先放在内存，内存不够的时候才会放入磁盘
第二、mapreduce的task是一个个进程，进程的创建销毁代价比较大。spark的task是一个个的线程
4、Spark集群结构
在这里插入图片描述
Driver：该进程调用 Spark 程序的 main 方法, 并且启动 SparkContext
Cluster Manager：该进程负责和外部集群工具打交道, 申请或释放集群资源
Worker：该进程是一个守护进程, 负责启动和管理 Executor
Executor：该进程是一个JVM虚拟机, 负责运行 Spark Task

在Spark中，一个应用（Application）由一个任务控制节点（Driver）和若干个作业（Job）构成，一个作业由多个阶段（Stage）构成，一个阶段由多个任务（Task）组成。当执行一个应用时，任务控制节点会向集群管理器（Cluster Manager）申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行任务，运行结束后，执行结果会返回给任务控制节点，或者写到HDFS或者其他数据库中。
5、Spark的基本运行流程如下：
（1）当一个Spark应用被提交时，首先需要为这个应用构建起基本的运行环境，即由任务控制节点（Driver）创建一个SparkContext，由SparkContext负责和资源管理器（Cluster Manager）的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源；
（2）资源管理器为Executor分配资源，并启动Executor进程，Executor运行情况将随着“心跳”发送到资源管理器上；
（3）SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAG调度器（DAGScheduler）进行解析，将DAG图分解成多个“阶段”（每个阶段都是一个任务集），并且计算出各个阶段之间的依赖关系，然后把一个个“任务集”提交给底层的任务调度器（TaskScheduler）进行处理；Executor向SparkContext申请任务，任务调度器将任务分发给Executor运行，同时，SparkContext将应用程序代码发放给Executor；
（4）任务在Executor上运行，把执行结果反馈给任务调度器，然后反馈给DAG调度器，运行完毕后写入数据并释放所有资源。在这里插入图片描述