Apache Druid集群运维梳理

最新推荐文章于 2024-01-23 16:15:11 发布

zxf126126

最新推荐文章于 2024-01-23 16:15:11 发布

阅读量166

点赞数

分类专栏： druid 文章标签： apache 运维

本文链接：https://blog.csdn.net/zxf126126/article/details/131887828

版权

druid 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

文章介绍了Druid集群的数据摄入流程，强调了数据从Task到Historical的迁移过程，并提到了实时数据摄入中的故障常见点。同时，文章列举了重要的运维指标，如任务运行状态、数据处理延迟和Segment迁移状态，帮助监控和诊断集群性能问题。

摘要由CSDN通过智能技术生成

如果觉得这篇文章有点晦涩难懂可以先阅读我之前写的博客：https://editor.csdn.net/md/?articleId=131744687

背景

由于Druid集群角色较多，并且是一个在线实时系统，还管理着众多实时数据摄入任务等原因，运维Druid集群难度略高于其他的OLAP引擎。下面我尝试梳理一下运维Druid集群必备的细节，希望对大家有所帮助。也希望各位大佬指点出哪些地方描述不准确的地方。

数据摄入基本流程

在我们以往的运维过程中发现大部分Druid集群故障都是出现在数据摄入阶段，所以我们重点关注一下数据摄入阶段各个角色之间的协同关系，只有充分熟悉了集群中各个角色之间的交互关系，才能在集群故障中快速准确的判断出哪个角色或者哪个环节出了问题，不然的话，由于角色较多导致头脑中一团乱麻，不止所措。下图是Druid集群实时数据摄入的基本流程图，这里主要介绍实时数据摄入任务，离线数据摄入任务流程更简单，不易出故障就不做过多介绍：
在这里插入图片描述

步骤介绍：

Task进程运行一段时间后会把本地segment数据上传到hdfs
Task发送SegmentTransactionalInsertAction请求到Overlord
Overlord运行SegmentTransactionalInsertAction将已发布的segment信息（used=1）写入元数据库（mysql）的druid_segments表中，并更新druid_datasource表中的kafka数据偏移量
Coordinator不断从元数据库中druid_segments拉取used=1的segment信息
Task定时请求Coordinator，确认自己刚刚发布的segment是否被Historical加载了
Coordinator对zk中的segment信息和druid_segments中的segment信息进行对比,从而决定分配新产生的segment
Coordinator分配新产生的segment到Historical
Historical不断从zk同步自己需要加载和删除的segment
Historical下载hdfs上的数据到本地，加载segment
Historical上报已加载的segment信息到zk，这样Coordinator和Broker能够从zk同步到新加载的segment
Task已经收到（第5步）之前已发布的segment被某个Historical加载成功的消息
Task进程下线提供实时查询的segment，删除在zk上segment的信息
Task主动下线自己，并通知zk，这样Broker通过zk能感知到Task的下线
Task退出任务进程