spark基础之存储原理

最新推荐文章于 2022-07-28 17:52:35 发布

莫言静好、

最新推荐文章于 2022-07-28 17:52:35 发布

阅读量689

点赞数

分类专栏：大数据/spark 文章标签： spark 存储 BlockTransferService BlockManagerMaster BlockManger

本文链接：https://blog.csdn.net/zhanglh046/article/details/78360889

版权

大数据/spark 专栏收录该内容

23 篇文章 9 订阅

订阅专栏

一 Spark存储架构

Spark的存储采用主从(Master/Slave)模式，使用RPC进行消息通信。

Master主要负责整个应用程序在运行期间block元数据的管理和维护,Slave主要负责将本地数据块的状态的汇报给Master;而且接收Master传过来的执行指令，比如获取数据块状态，删除RDD/数据块等。

在Driver端只有一个BlockManagerMaster负责管理和维护集群block元数据，并且给Executor的BlockManager下达一些操作指令；Driver端BlockManagerMaster需要通过消息体BlockManagerMasterEndpoint进行通信，比如和Executor端进行通信；实例化Driver端的BlockManager用于Driver获取内存状态，存储状态等，会创建一个BlockManagerSlaveEndpoint终端用于和master通信

每个Executor在启动的时候，也会初始化BlockManager，进行block的写入，释放task所有的锁等; 在初始化BlockManager的时候，会创建一个BlockManagerSlaveEndpoint终端用于和master通信。

二 Spark存储的工作流程

2.1 应用程序启动，创建SparkContext

2.2 SparkContext初始化过程中会创建BlockTransferService、BlockManagerMaster、BlockManagerMasterEndpoint 以及Driver端BlockManger和BlockManagerSlaveEndpoint

2.3 SparkContext初始化BlockManager，即调用BlockManager的initialize方法

2.4 BlockManager初始化的时候，就会向BlockManagerMaster注册

2.5 CoarseGrainedExecutorBackend里当接收到RegisteredExecutor消息时，就会创建Executor,用于执行task

2.6 Executor会根据是否在driver所在节点，如果不是driver所在节点，则需要创建BlockManager和BlockManagerSlaveEndpoint，并且向Master注册；如果是就不用创建了，因为已经创建过了。

2.7 当task任务执行完毕，则需要通过BlockManger并根据持久化级别将数据写入磁盘或者内存。如果StorageLevel == DISK_ONLY，则通过DiskStore将block写入磁盘；如果StorageLevel == MEMORY_ONLY，则通过MemoryStore将block缓存到内存。

2.8 当使用内存存储时，需要取决于配置参数spark.memory.useLegacyMode，如果是true,则使用spark1.6之前的内存管理模式StaticMemoryManager；如果是fasle，则使用新的Unified

MemoryManager。

这两者的区别：

Executor的内存界限分明，分别由3部分组成：execution,storage和system。

StaticMemoryManager：对各部分内存静态划分好后便不可变化

UnifiedMemoryManager：淡化了execution空间和storage空间的边界，让它们之间可以相互借内存

所以StaticMemoryManager在有时候会存在内存资源浪费问题，而UnifiedMemoryManager更加高效的使用了内存

莫言静好、

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark基础之存储原理

一 Spark存储架构Spark的存储采用主从(Master/Slave)模式，使用RPC进行消息通信。Master主要负责整个应用程序在运行期间block元数据的管理和维护,Slave主要负责将本地数据块的状态的汇报给Master;而且接收Master传过来的执行指令，比如获取数据块状态，删除RDD/数据块等。在Driver端只有一个BlockManagerMast
复制链接

扫一扫