告警抑制?
告警收敛?
告警去噪?
告警分组?
官方prometheus文档:https://prometheus.io/docs/introduction/overview/
目前理解:告警主要还是prometheus定的 分组 规则 1 标签(级别) 标题 消息内容 ,规则2 标签级别 标题 消息内容
参考链接:https://www.cnblogs.com/fat-girl-spring/p/13300801.html
groups: # 告警分组
- name: Node-server.rules # 组名称
rules: #告警规则
- alert: System Memory Used # 告警主题名称
expr: 100-(node_memory_MemAvailable_bytes{job="node-server"}/node_memory_MemTotal_bytes{job="node-server"}*100) > 60 # 告警阈值
for: 1m # 阈值持久时间
labels: # 标签,定义告警级别
severity: warning
annotations: # 告警描述信息
summary: "Instance {{ $labels.instance }} : {{ $labels.job }} 内存使用率过高 "
description: "{{ $labels.instance }} : {{ $labels.job }} 内存使用率超过60%.当前值: {{ $value }}" # {{ $value }} 调用的是上面的promeSQL的值
alertmanager是干嘛的呢?>
Alertmanager 主要用于接收 Prometheus 发送的告警信息,它很容易做到告警信息的去重,降噪,分组,策略路由,是一款前卫的告警通知系统。
k8s应该监控哪些指标:
https://mp.weixin.qq.com/s?__biz=MzIyMDY2MTE3Mw==&mid=2247488036&idx=1&sn=9dfdd09e8b23e3117e9fc988ac26ad6d&chksm=97c9c6fea0be4fe81fe910fa6c1cb900e2b6fd81e4bc5a7963174a4ee9bf6578bc0b9f4287f3&mpshare=1&scene=1&srcid=0730A5l3FxEM64kHzAFhbIP9&sharer_sharetime=1627600524642&sharer_shareid=105cb1ca5770d5806e2c6b13b744b2a9&version=3.1.10.3010&platform=win#rd
二 Prometheus 告警相关源码
https://mp.weixin.qq.com/s?__biz=MzIyMDY2MTE3Mw==&mid=2247488276&idx=1&sn=f5d5129484c4685604241d0344a5ea3c&chksm=97c9c7cea0be4ed8298bebef10e276b259ab0b304b64e80020a67aeb0ca1ac5dab3672df050d&mpshare=1&scene=1&srcid=0828l1jT2R61vdQIPYx3g0Z4&sharer_sharetime=1630156634052&sharer_shareid=105cb1ca5770d5806e2c6b13b744b2a9&version=3.1.8.3015&platform=win#rd