spark 存储体系——内存

申尧强

于 2024-05-24 18:17:43 发布

阅读量418

点赞数 5

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43839095/article/details/139181764

版权

存储类介绍

spark中存储相关的类基本都在org.apache.spark.storage下面。

MemoryStore：内存存储
BlockId：block的唯一标识
BlockInfoManager：记录block的元数据，同时也管理者block的锁
BlockManager：最重要的类，是管理block的入口
BlockManagerId：BlockManager的唯一id
BlockManagerManagedBuffer：block的buffer，用于传输
BlockManagerMaster：运行在driver，持有BlockManagerMasterEndpoint、BlockManagerMasterHeartbeatEndpoint
BlockManagerMasterEndpoint：endpoint，master管理各个executor中的blockManager
BlockManagerMasterHeartbeatEndpoint：endpoint，负责executor中的blockManager的心跳
BlockManagerSlaveEndpoint：endpoint，executor中blockManager与driver通信
BlockManagerSource：监控相关
DiskBlockManager：block和实际文件对应关系
DiskBlockObjectWriter：往磁盘写入的类
DiskStore：磁盘存储
StorageLevel：存储等级

MemoryEntry

MemoryEntry是内存存储的最小单位，有两个实现类分别对应序列化和非序列化：

DeserializedMemoryEntry：Array[T] 存储数据
SerializedMemoryEntry：ChunkedByteBuffer 存储数据

ValuesHolder

ValuesHolder用来临时存放数据，最后会生成MemoryEntry来存放数据。
它也有两个实现类，分别对应序列化和非序列化。

DeserializedValuesHolder

数据一条一条进来，先使用vector存储数据，完成后使用arrayValues存。

SerializedValuesHolder

可以选择存在堆内或者堆外。
每条数据都要经过序列化。

MemoryStore

主要方法分成三类：

存储数据：putBytes、putIterator、putIteratorAsValues、putIteratorAsBytes
读取数据：getBytes、getValues
删除数据：remove、evictBlocksToFreeSpace

entries

BlockId与MemoryEntry的关系。实际存储的结构。

putBytes

向memoryManager申请内存，然后生成MemoryEntry放入entries。

putIterator

存储iterator中的数据，iterator中的数据量不确定，所以一条一条进行存储，直到iterator中没有数据或者内存不够。
初始化一些必要参数，包括unroll标记，初始内存，扩容因子，unroll数据条数等
迭代iterator，将数据放入临时存储valueHolder中。每处理一批数据，进行扩容判断，需要扩容则进行扩容
迭代完毕后，因为最后存储所需的内存可能会超过申请的内存，所以再进行一个扩容判断，需要扩容则进行扩容
将unroll内存转store内存
将数据放入entries中，完成实际存储

putIteratorAsValues

使用非序列化的valuesHolder，调用putIterator方法。

putIteratorAsBytes

使用序列化的valuesHolder，调用putIterator方法。

getValues/getBytes

比较简单，从entries中取值，转成对应的数据结构。

remove

从entries中移除，再用memoryManager释放storageMemory

evictBlocksToFreeSpace

内存空间不够，清除内存中已经缓存的block。

遍历entries，记录可以驱除的block。（内存模式一致，不是同一个block）
遍历选中的block，进行驱除dropBlock
如果block可以存在磁盘上，就存到磁盘上，更新block信息。否则block完全删除了，移除block相关信息。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

申尧强 CSDN认证博客专家 CSDN认证企业博客

码龄6年

32: 原创

118万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

687: 积分

330: 粉丝

365: 获赞

11: 评论

349: 收藏

私信

关注

热门文章

最新评论

spark 广播变量broadcast
Kwan的解忧杂货铺@新空间代码工作室: 博主的文字总是富有深度，每一篇都像一场精彩的教育之旅，你的博文总是让我充满了对未知领域的好奇心，期待更多的智慧分享。非常感谢你的专业分享。
spark 读操作
征途黯然.: The description of spark读操作 is very vivid and has given me a deeper insight. I hope to see more content in the future!
spark 内存管理(源码)2
CSDN-Ada助手: 恭喜您发布了第10篇博客！对于spark内存管理的源码解析，您的文章内容一定十分深入和详细。希望您能继续保持创作的热情，为读者带来更多有价值的知识分享。建议您在下一篇博客中可以尝试结合实际案例或者应用场景，更好地帮助读者理解和应用所学知识。期待您的下一篇精彩内容！
spark 存储体系——内存
CSDN-Ada助手: 恭喜作者发布了第11篇博客，对于深入探讨spark存储体系中的内存部分，我感到非常兴奋。不断学习和分享是非常宝贵的品质，希望作者能够继续保持创作的热情和耐心。建议下一步可以考虑结合实际案例或者应用场景，进一步深化对内存存储的理解和应用。期待作者更多精彩的分享，谢谢！
spark 内存管理(源码)1
CSDN-Ada助手: 恭喜作者发布了新的博客《spark 内存管理(源码)》，内容涉及源码解析，深度剖析了内存管理的相关知识，让读者受益匪浅。希望作者能继续坚持创作，分享更多有价值的内容。下一步可以考虑结合实际案例，分享一些在内存管理方面的应用经验，让读者更加深入地理解和运用所学知识。期待作者的更多精彩分享！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。