Spark-Caching /Checkpointing

最新推荐文章于 2021-09-29 11:29:12 发布

07H_JH

最新推荐文章于 2021-09-29 11:29:12 发布

阅读量922

点赞数

分类专栏： spark/hadoop学习文章标签： spark

本文链接：https://blog.csdn.net/jianghuxiaojin/article/details/51373088

版权

spark/hadoop学习专栏收录该内容

36 篇文章 14 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark中的Caching和Checkpointing的区别与联系。Caching用于快速重用RDD，提供了多种持久化策略，而Checkpointing将RDD存储在可靠存储系统中，确保跨应用的持久性。Caching在应用生命周期内有效，而Checkpointing适合长期存储。两者结合使用可以在性能和容错间取得平衡。

摘要由CSDN通过智能技术生成

功能：

cacheing和checkpointing这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。

区别：

Caching
cache 机制保证了需要访问重复数据的应用（如迭代型算法和交互式应用）可以运行的更快。有多种级别的持久化策略让开发者选择，使开发者能够对空间和计算成本进行权衡，同时能指定out of memory时对rdd的操作（缓存在内存或者磁盘，并且可以指定在内存不够的情况下按照FIFO的策略选取一部分block交换到磁盘来产生空余空间）。因此Spark不但可以对rdd重复计算还能在节点发生故障时重新计算丢失的分区。最后，被缓存的rdd存在于一个running的应用的生命周期内，如果这个应用终止了，那么缓存的rdd也会同时被删除。
Checkpointing
checkpointing把rdd存储到一个可靠的存储系统（例如HDFS,S3）。checkpoint一个rdd有点类似于Hadoop中把中间计算结果存储到磁盘，损失部分执行性能来获得更好的从运行过程中出现failures时recover的能力。因为rdd是checkpoint在外部的存储系统（磁盘，HDFS,S3等