文章目录
kubesphere监控报警系统介绍
告警是可观测性的重要组成部分,与监控和日志密切相关。KubeSphere 中的告警系统与其主动式故障通知 (Proactive Failure Notification) 系统相结合,使用户可以基于告警策略了解感兴趣的活动。当达到某个指标的预定义阈值时,会向预先配置的收件人发出告警。因此,您需要预先配置通知方式,包括邮件、Slack、钉钉、企业微信和 Webhook。有了功能强大的告警和通知系统,您就可以迅速发现并提前解决潜在问题,避免您的业务受影响。
监控功能与使用
监控系统介绍
• 基于Prometheus生态
• 多租户隔离
• 多维度监控
• 全面丰富的指标
• 灵活多样的展现方式
集群状态监控
物理资源监控
集群资源
节点资源
Kubernetes核心组件监控
API Server监控
Scheduler监控
应用资源监控
- 管理员视角
- 集群层级
- 项目与应用资源统计
- 用量排行
- 集群层级
- 普通用户视角
- 企业空间层级
- 项目层级
- 工作负载层级
- 容器组层级
- 容器层级
集群层级
项目与应用资源统计
用量排行
企业空间层级
项目层级
工作负载层级
该工作负载包括3个容器组
容器组层级
容器层级
基于租户的告警与通知
告警功能介绍
- 兼容Prometheus规则(KubeSphere3.1开始)
- 多租户支持
- 内置平台告警策略
- 规则配置方式
集群告警
内置告警策咯
告警策略入口
物理资源(cpu/内存/存储)
- cpu告警策略
- 内存告警策略
- 节点文件系统告警策略
- volume pv持久卷告警策略
核心组件(k8s/etcd等)
自定义规则配置策咯
- 自定义规则配置入口
规则模板创建自定义规则
节点(cpu/内存/磁盘/网络/容器组利用率)
- 自定义节点cpu过高报警策略
- 设置报警阈值
- 报警消息设置
- 查看自定义告警策略详情
等待1分钟触发报警:
- 添加钉钉群机器人
- 重新编辑策略,等待1分钟查看钉钉群是否会接收到报警通知
自定义规则
通过已有指标配合PromQL自定义报警策略,Querying basics | Prometheus
# 不可用副本 / 期望副本 > 0.3
kube_deployment_status_replicas_unavailable / kube_deployment_spec_replicas > 0.3
应用告警
- 规则模板配置策略 (cpu/内存/网络/副本不可用)
- 部薯
- 有状态副本集
- 守护进程集
- 自定义规则配置策略
- 进入企业空间项目下创建应用报警策略
- 填写策略基本信息
- 选择资源类型和报警规则
- 填写报警信息
- 查看钉钉群报警信息
KubeSphere 自定义监控面板
- kubesphere 自定义监控
- kubesphere 导入grafana监控模板
- 使用自定义监控面板监控gpu
自定义监控
数据模型
https://github.com/kubesphere/monitoring-dashboard/tree/master/config/crd/bases
kubectl api-resources | grep dashboard
自定义监控面板
- 创建自定义监控面板
- 不适用模板可直接下一步
- 进入指定监控面板进行自定义
导入Grafana监控模板
转化过程如下:
https://github.com/kubesphere/monitoring-dashboard#converter-tool
- 使用Grafana创建监控面板
- 上传Grafana监控面板模板
使用自定义监控面板监控GPU
- 使用GPU创建监控面板
- 创建后看见GPU监控