spark checkpoint机制简述

最新推荐文章于 2022-06-22 16:17:16 发布

xwc35047

最新推荐文章于 2022-06-22 16:17:16 发布

阅读量4.3k

点赞数

分类专栏： spark经验总结 spark-streaming 文章标签： spark 分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xwc35047/article/details/78426770

版权

本文详细介绍了Spark核心的checkpoint机制，包括为何需要checkpoint、何时触发写入、何时读取以及两种具体的实现方式：LocalRDDCheckpointData和ReliableRDDCheckpointData。在Spark Streaming中，每个batch间隔都会触发checkpoint操作。此外，还提及了DirectKafkaInputDStreamCheckpointData在checkpoint中的特殊处理。

摘要由CSDN通过智能技术生成

本文主要简述spark checkpoint机制，快速把握checkpoint机制的来龙去脉，关于源码方面可以看参考文章。

###1、Spark core的checkpoint
####1）为什么checkpoint？
分布式计算中难免因为网络，存储等原因出现计算失败的情况，RDD中的lineage信息常用来在task失败后重计算使用，为了防止计算失败后从头开始计算造成的大量开销，RDD会checkpoint计算过程的信息，这样作业失败后从checkpoing点重新计算即可，提高效率。

####2）什么时候写checkpoint数据？

当RDD的action算子触发计算结束后会执行checkpoint。
在spark streaming中每generate一个batch的RDD也会触发checkpoint操作。

####3）什么时候读checkpoint数据？
task计算失败的时候会从checkpoint读取数据进行计算。

####4）checkpoint具体实现有哪些?
其实现分两种：

LocalRDDCheckpointData：临时存储在本地executor的磁盘和内存上（不能仅使用内存，因为内存的eviction机制可能造成data loss）。该实现的特点是比较快，适合lineage信息需要经常被删除的场景（如GraphX），可容忍executor挂掉。
ReliableRDDCheckpointData：存储在外部可靠存储（如hdfs），可以达到容忍driver 挂掉情况。虽然效率没有存储本地高，但是容错级别最好。
如果代码中没有设

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
spark checkpoint机制简述

本文主要简述spark checkpoint机制，快速把握checkpoint机制的来龙去脉，关于源码方面可以看参考文章。1、Spark core的checkpoint1）为什么checkpoint？分布式计算中难免因为网络，存储等原因出现计算失败的情况，RDD中的lineage信息常用来在task失败后重计算使用，为了防止计算失败后从头开始计算造成的大量开销，RDD会chec...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。