18.云原生可观测性之kubesphere监控报警系统使用实战

野心与梦

已于 2024-01-19 18:01:21 修改

阅读量1.4w

点赞数 19

分类专栏：私有云+云原生实战文章标签：云原生

于 2024-01-19 17:55:12 首次发布

本文链接：https://blog.csdn.net/weixin_45690643/article/details/135704060

版权

私有云+云原生实战专栏收录该内容

43 篇文章 14 订阅

订阅专栏

云原生专栏大纲

kubesphere监控报警系统介绍

告警是可观测性的重要组成部分，与监控和日志密切相关。KubeSphere 中的告警系统与其主动式故障通知 (Proactive Failure Notification) 系统相结合，使用户可以基于告警策略了解感兴趣的活动。当达到某个指标的预定义阈值时，会向预先配置的收件人发出告警。因此，您需要预先配置通知方式，包括邮件、Slack、钉钉、企业微信和 Webhook。有了功能强大的告警和通知系统，您就可以迅速发现并提前解决潜在问题，避免您的业务受影响。

监控功能与使用

监控系统介绍

• 基于Prometheus生态
• 多租户隔离
• 多维度监控
• 全面丰富的指标
• 灵活多样的展现方式

集群状态监控

物理资源监控

集群资源

节点资源

Kubernetes核心组件监控

API Server监控

Scheduler监控

应用资源监控

管理员视角
- 集群层级
  - 项目与应用资源统计
  - 用量排行
普通用户视角
- 企业空间层级
- 项目层级
- 工作负载层级
  - 容器组层级
  - 容器层级

集群层级

项目与应用资源统计

用量排行

企业空间层级

项目层级

工作负载层级

该工作负载包括3个容器组

容器组层级

容器层级

基于租户的告警与通知

告警功能介绍

兼容Prometheus规则（KubeSphere3.1开始)
多租户支持
内置平台告警策略
规则配置方式

集群告警

内置告警策咯

告警策略入口

物理资源（cpu/内存/存储）

cpu告警策略

内存告警策略

节点文件系统告警策略

volume pv持久卷告警策略

核心组件（k8s/etcd等）

自定义规则配置策咯

自定义规则配置入口

规则模板创建自定义规则

节点（cpu/内存/磁盘/网络/容器组利用率）

自定义节点cpu过高报警策略

设置报警阈值

报警消息设置

查看自定义告警策略详情

等待1分钟触发报警：

添加钉钉群机器人

重新编辑策略，等待1分钟查看钉钉群是否会接收到报警通知

自定义规则

通过已有指标配合PromQL自定义报警策略，Querying basics | Prometheus

# 不可用副本 / 期望副本 > 0.3
kube_deployment_status_replicas_unavailable / kube_deployment_spec_replicas > 0.3

应用告警

规则模板配置策略 (cpu/内存/网络/副本不可用）
- 部薯
- 有状态副本集
- 守护进程集
自定义规则配置策略

进入企业空间项目下创建应用报警策略

填写策略基本信息

选择资源类型和报警规则

填写报警信息

查看钉钉群报警信息

KubeSphere 自定义监控面板

kubesphere 自定义监控
kubesphere 导入grafana监控模板
使用自定义监控面板监控gpu

自定义监控

数据模型

https://github.com/kubesphere/monitoring-dashboard/tree/master/config/crd/bases

kubectl api-resources | grep dashboard

自定义监控面板

创建自定义监控面板

不适用模板可直接下一步

进入指定监控面板进行自定义

导入Grafana监控模板

转化过程如下：
https://github.com/kubesphere/monitoring-dashboard#converter-tool

使用Grafana创建监控面板

上传Grafana监控面板模板

使用自定义监控面板监控GPU

使用GPU创建监控面板

创建后看见GPU监控