史上最简单的spark教程第十四章-Spark核心架构之运行原理与架构

最新推荐文章于 2024-09-16 10:02:09 发布

置顶李时珍皮啊

最新推荐文章于 2024-09-16 10:02:09 发布

阅读量1.9k

点赞数 1

分类专栏： # spark # 大数据拥抱大数据文章标签：大数据

本文链接：https://blog.csdn.net/youbitch1/article/details/89137129

版权

拥抱大数据同时被 3 个专栏收录

28 篇文章 11 订阅

订阅专栏

大数据

25 篇文章 10 订阅

订阅专栏

spark

24 篇文章 32 订阅

订阅专栏

spark核心架构

史上最简单的spark教程
所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch

(提前声明:文章由作者:张耀峰结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)
(文章参考:Elasticsearch权威指南,Spark快速大数据分析文档,Elasticsearch官方文档,实际项目中的应用场景)
(帮到到您请点点关注,文章持续更新中!)
Git主页 https://github.com/Mydreamandreality

spark在分布式环境中是主从master/salve的结构

驱动器节点(driver)
spark的集群中,有一个节点负责中央协调.调度各个分布式的工作节点,就是驱动器节点(driver)

执行器节点(worker)
spark的工作节点叫做执行器节点(worker),驱动器节点可以和大量的执行器节点进行通信,都作为独立的Java进程裕运行,驱动器和执行器被称为spark程序 (application)

在这里插入图片描述

分布式spark中的组件
spark的应用通过一个外部服务(cluster manager)集群管理器在集群中的机器上启动,
spark自带的集群管理器被称为独立集群管理器
spark能运行在hadoop.yanr和apache mesos这两大开源集群管理器上

详细介绍

驱动器节点:

spark驱动器是执行我们代码中main方法的进程,它执行我们创建sparkcontext,创建RDD,转换操作,行动操作的代码
当我们启动spark-shell的时候,我们就已经启动了spark驱动器,[spark-shell会预先加载sparkcontext对象],驱动器一旦停止,spark应用就结束了

驱动器在spark中的两个主要职责

一:把用户程序转成任务

spark驱动器程序把用户的程序转成多个物理执行的单元,这些单元也叫作task任务
从上层看,所有的spark程序都遵循同样的结构
- 程序获取数据源
- 创建RDD
- 转换操作生成新的RDD
- 行动操作收集或者存储RDD
- spark程序其实是隐式的创建了操作组成的逻辑上的有向无环图
- 当驱动程序执行时,再把逻辑图转成物理执行计划

二:为执行器节点调度任务

有了物理执行计划之后,spark驱动器必须在各执行器进程间协调任务的调度,执行器的进程启动之后,会向驱动器进程注册自己,所以驱动器对所有应用中的执行器节点有完整的记录,每个执行器的节点都代表能够处理任务和存储RDD数据的进程
spark驱动器程序会根据当前的执行器节点集合,尝试把所有任务基于数据所在的位置分配给合适的执行器进程,当任务执行的时候,执行器会把这些数据缓存起来,驱动器程序还会跟踪数据缓存,以达到下次的任务通过数据所在位置进行调度,以减少数据的网络传输
驱动器程序会将一些spark应用运行时的信息通过网页呈现
可视化界面和监控后面单独拉一章出来讲一下把