HW8.Spark简介

最新推荐文章于 2024-08-12 18:19:22 发布

雒翼

最新推荐文章于 2024-08-12 18:19:22 发布

阅读量317

点赞数

分类专栏：大数据文章标签：分布式大数据 spark

本文链接：https://blog.csdn.net/weixin_43973320/article/details/112985736

版权

大数据专栏收录该内容

7 篇文章 2 订阅

订阅专栏

1.简述Spark的技术特点
基于内存的弹性分布式数据集（RDD）：Spark提出的弹性分布式数据集，是Spark最核心的分布式数据抽象，Spark的很多特性都和RDD密不可分。
Transformation & Action：Spark通过RDD的两种不同类型的运算实现了惰性计算，即在RDD的Transformation运算时，Spark并没有进行作业的提交；而在RDD的Action操作时才会触发SparkContext提交作业。
血统关系（lineage）：为了保证RDD中数据的鲁棒性，Spark系统通过血统关系（lineage）来记录一个RDD是如何通过其他一个或者多个父类RDD转变过来的，当这个RDD的数据丢失时，Spark可以通过它父类的RDD重新计算。
Spark调度：Spark采用了事件驱动的Scala库类Akka来完成任务的启动，通过复用线程池的方式来取代MapReduce进程或者线程启动和切换的开销。
API：Spark使用Scala语言进行开发，并且默认Scala作为其编程语言。因此，编写Spark程序比MapReduce程序要简洁得多。同时，Spark系统也支持Java、Python语言进行开发。
Spark生态：Spark SQL、Spark Streaming、GraphX等为Spark的应用提供了丰富的场景和模型，适合应用于不同的计算模式和计算任务。
Spark部署：Spark拥有Standalone、Mesos、YARN、K8S等多种部署方式，可以部署在多种底层平台上。
适用性：适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
综上所述，Spark是一种为大规模数据处理而设计的快速通用的分布式计算引擎，适合于完成一些迭代式、关系查询、流式处理等计算密集型任务。
2.简述Spark的基本构架和组件功能
Spark集群的基本结构是一个master节点和若干个worker节点。Master node：是集群部署时的概念，是整个集群的控制器，负责整个集群的正常运行，管理Worker node。Worker node：是计算节点，接收主节点命令与进行状态汇报。每个Worker上有一个Executor，负责完成Task程序的执行。
Spark集群部署后，需要在主从节点启动Master进程和Worker进程，对整个集群进行控制。
在Spark应用程序执行过程中，Driver和Worker扮演着最重要的角色。Driver 是应用执行起点，负责作业调度。 Worker管理计算节点及创建并行处理任务，每个worker上有自己的擦车和input data；Cache存储中间结果等，Input Data为输入数据。

Spark程序运行机制抽象上如上图，
Client：用户的客户端
Driver：负责控制一个应用的执行
Cluster Manager：在集群上获取资源的外部服务，例如Standalone、Mesos、YARN、Kubernetes
Executor：负责执行Task任务

Spark Driver的组成：
• Driver：执行Application的main()函数并创建SparkContext。
• RDD：Spark基本计算单元，一组RDD形成可执行的有向无环图（操作主要有：Transformation和Action）
• DAG Scheduler：根据Job构建的基于Stage的DAG，并提交Stage给TaskScheduler
• TaskScheduler：将Task分发给Executor执行
• SparkEnv：线程级别运行环境，存储运行时的重要组件的
引用，创建并包含了：
• MapOutPutTracker：存储Shuffle元信息
• BroadcastManager：控制广播变量并存储其元信息
• BlockManager：存储管理、创建和查找块
• MetricsSystem：监控运行时性能指标信息
• SparkConf：存储配置信息

SparkContext：SparkContext由用户程序启动，是Spark运行的核心模块，它对一个Spark程序进行了必要的初始化过程，其中包括了：创建SparkConf类的实例：这个类中包含了用户自定义的参数信息和Spark配置文件中的一些信息等等(用户名、程序名、Spark版本等)，创建SparkEnv类的实例：这个类中包含了Spark执行时所需要的许多环境对象，例如底层任务通讯的Akka，Actor System、block manager、serializer等。创建调度类的实例：Spark中的调度分为TaskScheduler和DAGScheduler两种，而它们的创建都在SparkContext的初始化过程中。
3.简述何为“数据编排”以及Alluxio的特点
数据编排是一种技术，它使应用程序的运行能够与计算无关、与存储无关和与云无关。因此Alluxio构建了基于内存的分布式存储系统，即“数据编排平台”，其架构在计算框架和存储系统之间。数据编排平台跨存储系统将数据访问抽象出来，虚拟化所有数据，并通过具有全局命名空间的标准化API将数据呈现给数据驱动的应用程序。同时，它还应该具有缓存功能，以支持快速访问热数据。总之，数据编排平台为数据驱动的应用程序提供了数据可访问性、数据本地性和数据可伸缩性。
Alluxio的特点：
主要特性：数据存储与计算分离，两部分引擎可以进行独立的扩展。计算引擎（如Hadoop，Spark）可以访问不同数据源（Amazon S3, HDFS）中的数据。
内存I/O速度（可作为分布式共享缓存服务）
采用简化的云和对象存储
简化数据管理： Alluxio提供对多个数据源的单点访问。除了连接不同类型的数据源之外，Alluxio还使用户能够同时连接到同一存储系统的不同版本，例如多个版本的HDFS，而无需复杂的系统配置和管理。
简单的应用程序部署：Alluxio管理应用程序与文件或对象存储之间的通信，将数据访问请求从应用程序转换为底层存储接口。Alluxio兼容Hadoop，Spark和MapReduce程序，可以无需修改任何代码在Alluxio之上运行。

雒翼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
HW8.Spark简介

1.简述Spark的技术特点基于内存的弹性分布式数据集（RDD）：Spark提出的弹性分布式数据集，是Spark最核心的分布式数据抽象，Spark的很多特性都和RDD密不可分。Transformation & Action：Spark通过RDD的两种不同类型的运算实现了惰性计算，即在RDD的Transformation运算时，Spark并没有进行作业的提交；而在RDD的Action操作时才会触发SparkContext提交作业。血统关系（lineage）：为了保证RDD中数据的鲁棒性，Spar
复制链接

扫一扫

专栏目录