Spark框架

Spark的整体流程为:Client提交应用,Master找到一个Worker启动Driver,Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph,再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler,由TaskScheduler提交任务给Executor执行。在任务执行的过程中,其他组件协同工作,确保整个应用顺利执行。


Client:作为用户的客户端负责提交应用。

Master:作为整个集群的控制器,负责整个集群的正常运行。

Worker:相当于计算节点,接收主节点命令并进行状态汇报。

Driver:负责控制一个应用程序,其运行Application的main()函数,并创建SparkContext。

SparkContext:是整个应用的上下文,控制应用的生命周期。

RDD:Spark的基本计算单元,一组RDD可形成执行的有向无环图RDD Graph。

DAGScheduler:根据作业(Job)构建基于Stage的DAG,并提交Stage给TaskScheduler。

TaskScheduler:将任务分发给Executor。

Executor:执行器,在worker node上执行任务的组件,用于启动线程池运行任务。

Spark框架中其他组件的作用:

SparkConf:负责存储配置信息。

MetricsSystem:监控运行时性能指标信息。

BlockManager:负责存储管理,负责创建和查找block。

BrocastManager:负责广播变量的控制与元信息的存储。



Progress is not created by contented people.

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值