Spark的模块组成（入门必看）

最新推荐文章于 2025-02-28 16:50:39 发布

Data跳动

最新推荐文章于 2025-02-28 16:50:39 发布

阅读量4.6k

点赞数 3

分类专栏： Spark 文章标签： spark 大数据 spark入门 Saprk Core Spark模块

本文链接：https://blog.csdn.net/weixin_43958974/article/details/122227067

版权

Spark 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了Spark的五大核心模块：SparkCore、SparkSQL、SparkStreaming、MLlib和GraphX，涉及其功能、应用场景及数据处理方式。SparkCore作为基础，提供SparkContext、SparkRPC等关键组件；SparkSQL支持结构化数据处理；SparkStreaming处理实时流数据；MLlib包含机器学习算法；GraphX专注于图计算。此外，还提及了Spark任务的运行模式和数据源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

上期文章，介绍了Spark不仅能够在内存中进行高效运算，还是一个大一统的软件栈，可以适用于各种各样原本需要多种不同的分布式平台的场景。接下来简要介绍Spark的模块组成。

本期学习目标

Spark的模块组成
Spark Core
Spark SQL
Spark Streaming
MLlib
GraphX
SparkR

Spark的模块组成

Spark的各个组成模块如下：
在这里插入图片描述

Spark 基于 Spark Core 建立了 Spark SQL、Spark Streaming、MLlib、GraphX、SparkR等核心组件；
基于这些不同组件又可以实现不同的计算任务；
这些计算任务的运行模式有：本地模式、独立模式、YARN、Mesos等；
Spark任务的计算可以从HDFS、HBase、Cassandra等多种数据源中存取数据。

Spark Core

Spark Core实现了Spark基本的核心功能，如下：

基础设施
SparkConf ：用于定义Spark应用程序的配置信息；
SparkContext ：为Spark应用程序的入口，隐藏了底层逻辑，开发人员只需使用其提供的API就可以完成应用程序的提交与执行；
SparkRPC ：Spark组件之间的网络通信依赖于基于Netty实现的Spark RPC框架；
SparkEnv ：为Spark的执行环境，其内部封装了很多Spark运行所需要的基础环境组件；
ListenerBus ：为事件总线，主要用于SparkContext内部各组件之间的事件交互；
MetricsSystem ：为度量系统，用于整个Spark集群中各个组件状态的监控；
存储系统
用于管理Spark运行过程中依赖的数据的存储方式和存储位置，Spark的存储系统首先考虑在各个节点的内存中存储数据，当内存不足时会将数据存储到磁盘上，并且内存存储空间和执行存储空间之间的边界也可以灵活控制。
调度系统
DAGScheduler ：负责创建job、将DAG中的RDD划分到不同Stage中、为Stage创建对应的Task、批量提交Task等；
TaskScheduler ：负责按照FIFO和FAIR等调度算法对Task进行批量调度；
计算引擎
主要由内存管理器、任务管理器、Task、Shuffle管理器等组成。