HW8.Spark简介

1.简述Spark的技术特点
基于内存的弹性分布式数据集(RDD):Spark提出的弹性分布式数据集,是Spark最核心的分布式数据抽象,Spark的很多特性都和RDD密不可分。
Transformation & Action:Spark通过RDD的两种不同类型的运算实现了惰性计算,即在RDD的Transformation运算时,Spark并没有进行作业的提交;而在RDD的Action操作时才会触发SparkContext提交作业。
血统关系(lineage):为了保证RDD中数据的鲁棒性,Spark系统通过血统关系(lineage)来记录一个RDD是如何通过其他一个或者多个父类RDD转变过来的,当这个RDD的数据丢失时,Spark可以通过它父类的RDD重新计算。
Spark调度:Spark采用了事件驱动的Scala库类Akka来完成任务的启动,通过复用线程池的方式来取代MapReduce进程或者线程启动和切换的开销。
API:Spark使用Scala语言进行开发,并且默认Scala作为其编程语言。因此,编写Spark程序比MapReduce程序要简洁得多。同时,Spark系统也支持Java、Python语言进行开发。
Spark生态:Spark SQL、Spark Streaming、GraphX等为Spark的应用提供了丰富的场景和模型,适合应用于不同的计算模式和计算任务。
Spark部署:Spark拥有Standalone、Mesos、YARN、K8S等多种部署方式,可以部署在多种底层平台上。
适用性:适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小。由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
综上所述,Spark是一种为大规模数据处理而设计的快速通用的分布式计算引擎,适合于完成一些迭代式、关系查询、流式处理等计算密集型任务。
2.简述Spark的基本构架和组件功能
Spark集群的基本结构是一个master节点和若干个worker节点。Master node:是集群部署时的概念,是整个集群的控制器,负责整个集群的正常运行,管理Worker node。Worker node:是计算节点,接收主节点命令与进行状态汇报。每个Worker上有一个Executor,负责完成Task程序的执行。
Spark集群部署后,需要在主从节点启动Master进程和Worker进程,对整个集群进行控制。
在Spark应用程序执行过程中,Driver和Worker扮演着最重要的角色。Driver 是应用执行起点,负责作业调度。 Worker管理计算节点及创建并行处理任务,每个worker上有自己的擦车和input data;Cache存储中间结果等,Input Data为输入数据。

Spark程序运行机制抽象上如上图,
Client:用户的客户端
Driver:负责控制一个应用的执行
Cluster Manager:在集群上获取资源的外部服务,例如Standalone、Mesos、YARN、Kubernetes
Executor:负责执行Task任务

Spark Driver的组成:
• Driver:执行Application的main()函数并创建SparkContext。
• RDD:Spark基本计算单元,一组RDD形成可执行的有向无环图(操作主要有:Transformation和Action)
• DAG Scheduler:根据Job构建的基于Stage的DAG,并提交Stage给TaskScheduler
• TaskScheduler:将Task分发给Executor执行
• SparkEnv:线程级别运行环境,存储运行时的重要组件的
引用,创建并包含了:
• MapOutPutTracker:存储Shuffle元信息
• BroadcastManager:控制广播变量并存储其元信息
• BlockManager:存储管理、创建和查找块
• MetricsSystem:监控运行时性能指标信息
• SparkConf:存储配置信息

SparkContext:SparkContext由用户程序启动,是Spark运行的核心模块,它对一个Spark程序进行了必要的初始化过程,其中包括了:创建SparkConf类的实例:这个类中包含了用户自定义的参数信息和Spark配置文件中的一些信息等等(用户名、程序名、Spark版本等),创建SparkEnv类的实例:这个类中包含了Spark执行时所需要的许多环境对象,例如底层任务通讯的Akka,Actor System、block manager、serializer等。创建调度类的实例:Spark中的调度分为TaskScheduler和DAGScheduler两种,而它们的创建都在SparkContext的初始化过程中。
3.简述何为“数据编排”以及Alluxio的特点
数据编排是一种技术,它使应用程序的运行能够与计算无关、与存储无关和与云无关。因此Alluxio构建了基于内存的分布式存储系统,即“数据编排平台”,其架构在计算框架和存储系统之间。数据编排平台跨存储系统将数据访问抽象出来,虚拟化所有数据,并通过具有全局命名空间的标准化API将数据呈现给数据驱动的应用程序。同时,它还应该具有缓存功能,以支持快速访问热数据。总之,数据编排平台为数据驱动的应用程序提供了数据可访问性、数据本地性和数据可伸缩性。
Alluxio的特点:
主要特性:数据存储与计算分离,两部分引擎可以进行独立的扩展。计算引擎(如Hadoop,Spark)可以访问不同数据源(Amazon S3, HDFS)中的数据。
内存I/O速度(可作为分布式共享缓存服务)
采用简化的云和对象存储
简化数据管理: Alluxio提供对多个数据源的单点访问。除了连接不同类型的数据源之外,Alluxio还使用户能够同时连接到同一存储系统的不同版本,例如多个版本的HDFS,而无需复杂的系统配置和管理。
简单的应用程序部署:Alluxio管理应用程序与文件或对象存储之间的通信,将数据访问请求从应用程序转换为底层存储接口。Alluxio兼容Hadoop,Spark和MapReduce程序,可以无需修改任何代码在Alluxio之上运行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值