Zookeeper故障说明以及解决方案

最新推荐文章于 2025-03-01 00:02:39 发布

李先森&Mr.Li

最新推荐文章于 2025-03-01 00:02:39 发布

阅读量8.4w

点赞数 2

分类专栏：中间件架构拓展文章标签： zookeeper Dolphinschedu Clickhouse CDH集群 Zookeeper故障

本文链接：https://blog.csdn.net/weixin_44275820/article/details/120704485

版权

中间件架构拓展专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了作者遇到的Zookeeper、Clickhouse和Dolphinscheduler在实际运行中遇到的故障情况，包括故障描述、原因分析和具体的解决步骤。针对Zookeeper，问题在于系统盘负载过高影响服务；Clickhouse因内存耗尽导致无法启动；Dolphinscheduler的调度任务失败与Zookeeper服务异常有关。通过调整配置、清理缓存和重启服务等措施，成功恢复了系统正常运行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：今天这篇文章我主要讲一下我以前遇到的【Zookeeper故障】以及解决方案，供大家后续遇到类似问题是方便排查问题！

一、故障情况描述

CDH Zookeeper报警: Maximum Request Latency
Clickhouse数据库node1、node2节点无法启动
Dolphinscheduler调度任务实例运行失败

二、Zookeeper故障原因及处理步骤

1、现象

发生故障时最大请求延迟超过设定阈值，CDH健康值检查异常触发告警

2、观察

观察Zookeeper日志中出现“ZooKeeperServer not running” / “fsync-ing the write ahead log in SyncThread:2 took 1415ms which will adversely effect operation latency”

3、定位

初步定位为UAT环境Zookeeper数据目录配置在系统根目录中，系统其他进程读写系统盘负载过高会影响到Zookeeper服务。
Zookeeper服务返回响应前,会将事务日志写入存储介质，事务日志写入介质慢会导致响应时间超时，触发Maximum Request Latency报警和集群通信异常。