Spark RDD Cache缓存使用详解

最新推荐文章于 2024-04-26 13:55:34 发布

yjgithub

最新推荐文章于 2024-04-26 13:55:34 发布

阅读量9k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/yjgithub/article/details/80475383

版权

Spark 专栏收录该内容

22 篇文章 3 订阅

订阅专栏

NONE :什么类型都不是
DISK_ONLY：磁盘
DISK_ONLY_2：磁盘；双副本
MEMORY_ONLY： 内存；反序列化；把RDD作为反序列化的方式存储，假如RDD的内容存不下，剩余的分区在以后需要时会重新计算，不会刷到磁盘上。
MEMORY_ONLY_2：内存；反序列化；双副本
MEMORY_ONLY_SER：内存；序列化；这种序列化方式，每一个partition以字节数据存储，好处是能带来更好的空间存储，但CPU耗费高
MEMORY_ONLY_SER_2 : 内存；序列化；双副本
MEMORY_AND_DISK：内存 + 磁盘；反序列化；双副本；RDD以反序列化的方式存内存，假如RDD的内容存不下，剩余的会存到磁盘
MEMORY_AND_DISK_2 : 内存 + 磁盘；反序列化；双副本
MEMORY_AND_DISK_SER：内存 + 磁盘；序列化  
MEMORY_AND_DISK_SER_2：内存 + 磁盘；序列化；双副本
*********** 序列化能有效减少存储空间，默认MEMORY_ONLY

3.如何选择存储级别

如果RDD对于默认的存储级别是满足的，就不要选择其他了。这是性能最优的，最高效的（前提内存要足够，这是第一选择）

如果MEMORY_ONLY不一定满足（即：内存不够），可以尝试使用MEMORY_ONLY_SER再加上一个序列化框架（kyro），这样内存的空间更好。序列化就是为了减少空间

不要把数据写到磁盘，成本是非常高的。当数据太大的时候，可以过滤一部分数据再存，这样的话可能会更快

可以使用副本的存储级别能更快的容错，所以的storage level都提供了副本机制，这个机制能让你继续再RDD上运行task，并不需要等待重新计算。（从另外的节点拿）

PS:首选第1种方式，满足不了再使用第2种。后两种不推荐

4.移除缓存数据

Spark会自动地监控每个节点的使用情况，以一种LRU的机制（least-recently-used：最近很少使用）去自动移除。如果想手工代替这种自动去移除，可以使用RDD.unpersist()去处理

yjgithub

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD Cache缓存使用详解

目录：1.概述 2.缓存类型 3.如何选择缓存类型 4.移除缓存数据1.概述Spark的开发调优有一个原则，即对多次使用的RDD进行持久化。如果要对一个RDD进行持久化，只要对这个RDD调用cache()和persist()即可。1.1 cache()方法表示：使用非序列化的方式将RDD的数据全部尝试持久化到内存中，cache()只是一个transformtion，是la...
复制链接

扫一扫