SparkCore — CacheManager持久化原理

CacheManager持久化原理

  CacheManager的主要功能就是在进行RDD计算的时候,会先从持久化的RDD中读取当前计算RDD需要的数据。
  下面是RDD在进行计算的时候,读取数据的流程:
CacheManager
  RDD在计算的时候,首先会判断是否被持久化过,如果没有持久化,那么会用父RDD的数据来执行我们定义的算子计算新的RDD的partition的数据;假设持久化了,那么使用CacheManager直接读取持久化的数据;在读取的时候,使用BlockManager尝试从本地读取数据,或者远程拉取数据;假如一直都读取不到,那么还会读取之前checkpoint的数据,假如checkpoint的数据也没有读取到,那么就需要重新计算。在重新计算的时候,会将之前丢失的数据接着进行缓存,依据持久化级别进行缓存,内存或者磁盘等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值