Spark Streaming之容错性

最新推荐文章于 2024-01-23 00:35:13 发布

wql_zero

最新推荐文章于 2024-01-23 00:35:13 发布

阅读量602

点赞数

分类专栏： Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wql_zero/article/details/86102347

版权

Spark Streaming 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

为了保证系统的高容错性，Spark Streaming期初考虑到如下情况：

1：利用spark本身的容错设计，存储级别（MEMORY_AND_DISK_2）和RDD抽象设计能够处理集群中任何Worker节点的故障；

2：由于spark运行多种运行模式，器Driver端可能运行在Master节点或者在集群中的任意节点上，这样让Driver端具备容错能力是一个很大的挑战，但是由于SparkStreaming接收的数据是按照批进行存储和处理，这些批次数据的元数据可以通过执行检查点的方式定期写入可靠的存储中，在Driver端重新启动中恢复这些状态；

spark丢失数据的情况：

1：Kafka或者flume等数据持续发数据，由于接收到的数据还只缓存在Executor的内存中，尚未及时被处理，当Executor出现异常是会丢失内存中的数据；

2：如果集群处于独立运行模式或YARN运行模式或者Mesos模式，当Driver端失败时该Driver端所管理的Executor及内存中数据将终止，即使Driver端重新启动这些缓存的数据也不能被恢复；

为了避免以上两种情况，从spark1.2版本起，已经预写日志功能；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。