Gitops监控系统
一、系统功能
系统能够完成对整个Gitops核心组件运行状态的监控,使得用户能够通过只浏览本系统即可获取对应组件想要的数据监控信息,而不需要再前往不同组件对应的监控系统,完成一站式数据监控。
例如,当需要查看ArgoCD的运行状态,应该前往ArgoCD的监控模块;如果需要查看Taketon今天所完成的构建次数,也需要查看Taketon对应的数据监控。这些操作相对来说比较复杂、耗时、功能比较单一。Gitops监控系统从系统层面出发,将各个组件的运行状态整合起来,从而完成只查看一个界面就可以获取到整个系统所有组件的数据监控信息,达到一站式数据监控的目的。
二、用户对象
系统不局限于使用用户,任何参与系统开发并有数据监控需求的开发者都可以使用本系统。对于开发人员来说,只需要关心自己所想要查看的模块即可;对于管理人员来说,能够查看整个系统的运行状态,包括集群数量、应用数量、Cpu使用率、内存使用率等情况。
三、系统目标
3.1 能够达到对整个系统的运行状态监控目标
3.2 保证系统数据的准确性,不允许存在大量监控数据错误的情况
3.3 能够在系统达到阙值时及时告警
3.4 确保系统的稳定性与独立性,即被监控的系统可以崩溃但是监控系统不能崩溃
3.5 提升查询速度,优化查询语句,防止数据量过大导致查询失败
四、数据总览
4.1 指标汇总
4.2 模板汇总
五、组件指标
系统共分为六个组件,分别overview模块、Auth模块、Taketon模块、Harbora模块、Argo模块、Api模块。
5.1 overview模块
系统监控信息是整个系统的静态信息,主要指标有
- 集群数量、应用数量
- Cpu使用率、内存使用率
- 昨日的 一键发布、回滚、重启、发布、删除 数量
5.2 Auth模块
Auth模块主要负责监控系统的认证功能,主要指标有
- 接口成功与失败统计
- 认证通过与拒绝统计
- 认证耗时统计
5.3 Taketon模块
Taketon模块的主要指标有
- pipelineRun、build-task、deploy-task 的平均耗时
- pipelineRun的成功数量、失败数量 、正在运行数量
- 历史PipelineRun数量
- Reconciliation Performance
5.4 Harbor模块
Harbor模块主要指标有
- 基于
operation
的重复表盘耗时分布
5.5 Argo模块
Taketon模块的主要指标有
- 健康状态
- 同步状态
- Reconciliation Performance
5.6 Api模块
Api模块的主要指标有
- 成功请求
- 失败请求
- 请求平均延时