【3天掌握Spark】-- RDD持久化

在Spark开发中,为了提升效率,可以对经常使用的RDD进行持久化或缓存,避免重复计算。缓存级别包括内存、磁盘、序列化等,可根据数据量选择合适的级别。通常使用`count`等Action触发缓存。当RDD不再需要时,可通过`unpersist`释放资源。缓存策略的选择应在理解业务需求和数据特性后决定。
摘要由CSDN通过智能技术生成

RDD 持久化

在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率。

将RDD数据进行缓存时,本质上就是将RDD各个分区数据进行缓存

在这里插入图片描述
缓存函数
在这里插入图片描述
但是实际项目中,不会直接使用上述的缓存函数,RDD数据量往往很多,内存放不下的。在实际的项目中缓存RDD数据时,往往使用如下函数,依据具体的业务和数据量,指定缓存的级别:
在这里插入图片描述

  • 缓存级别

在Spark框架中对数据缓存可以指定不同的级别,对于开发来说至关重要,如下所示:
在这里插入图片描述
际项目中缓存数据时,往往选择如下两种级别:
在这里插入图片描述
缓存函数与Transformation函数一样,都是Lazy操作,需要Action函数触发,通常使用count函数触发
在这里插入图片描述

  • 释放缓存

缓存的RDD数据,不再被使用时,考虑释资源,使用如下函数:
在这里插入图片描述
此函数属于eager,立即执行。

  • 何时缓存数据

在实际项目开发中,什么时候缓存RDD数据,最好呢???
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值