spark高可用的配置

最新推荐文章于 2023-10-09 11:55:32 发布

写吧HJ

最新推荐文章于 2023-10-09 11:55:32 发布

阅读量631

点赞数

分类专栏：大数据开发学习 spark 文章标签：大数据互联网实时计算高可用环境搭建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43857365/article/details/88944128

版权

大数据开发学习同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

spark高可用集群的搭建方式

搭高可用的集群有两种方式，一种是基于文件系统，一种是基于zookeeper。但是zookeeper有选举的功能，也就是当一台master挂掉之后，备用的master能够被zookeeper启动起来，并基于zookeeper恢复数据。

zookeeper的作用

托管主节点的信息，HDFS(namenode),YARN(resourcemanager)。
自动选举leader的功能。
spark中master存在单点故障，zookeeper里面托管的是master的信息。
master的信息包含:Worker的信息(HashSet),Driver的信息(ArrayBuffer),Application的信息(ArrayBuffer)。
如果spark集群中某一台alive状态的master挂掉了，另外一个原先处于standb状态的master会基于zookeeper托管的信息重新恢复，变为alive状态。

基于文件系统和基于zookeeper搭建spark高可用有什么区别？

基于文件系统，当master挂掉之后，需要手动启动一个master,新的master会基于文件系统上面的信息恢复。
基于zookeeper,当一个master挂掉了，他会自动选取一个新的master作为alive状态的master,选举出来后，再基于zookeeper保存的信息恢复。

1.master主备切换时间能提交一个新的application到集群中运行么？

不能，因为在master主备切换的过程，master是无法为当前Application分配资源

2.主备切换之前已经有application在运行了，主备切换的时候有影响么？

没有影响，因为Spark是粗粒度的资源调度，在application运行之前已经分配好资源了。

3.心跳机制

Worker仅仅向Master汇报的信息只有WorkerID，也就是告诉 Master 我还活着，至于 Worker 内部的资源信息，因为 Spark 是粗粒度的资源调度，在Worker启动时就已经向Master汇报了资源情况，所以 Master内部有它的资源信息。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。