Spark内核之基本名词

文章目录


目标
你需要理解每个名词对应的组件或程序是用来干嘛的,有什么意义。

基本名词

  1. Application:应用,就是程序员编写的Spark代码,如WordCount代码

  2. Driver:驱动程序,就是用来执行main方法的JVM进程,里面会执行一些Drive端的代码,如创建SparkContext,设置应用名,设置日志级别…

  3. SparkContext:Spark运行时的上下文环境,用来和ClusterManager进行通信的,并进行资源的申请、任务的分配和监控等

  4. ClusterManager:集群管理器,对于Standalone模式,就是Master,对于Yarn模式就是ResourceManager/ApplicationMaster,在集群上做统一的资源管理的进程

  5. Worker:工作节点,是拥有CPU/内存等资源的机器,是真正干活的节点

  6. Executor:运行在Worker中的JVM进程!

  7. RDD:弹性分布式数据集

  8. DAG:有向无环图,就是根据Action形成的RDD的执行流程图—静态的图

  9. Job:作业,按照DAG进行执行就形成了Job—按照图动态的执行

  10. Stage:DAG中,根据shuffle依赖划分出来的一个个的执行阶段!

  11. Task:一个分区上的一系列操作(pipline上的一系列流水线操作)就是一个Task,同一个Stage中的多个Task可以并行执行!(一个Task由一个线程执行),所以也可以这样说:Task(线程)是运行在Executor(进程)中的最小单位!

  12. TaskSet:任务集,就是同一个Stage中的各个Task组成的集合!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据老人家i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值