正常业务情况下 cpu不会长时间处在99%以下
但是服务器中有个转换视频的程序 如果程序执行的话 会有1分钟左右时间cpu使用率特别高,空闲时间会在5%左右,会触发下面的误报警。
然后就打算写一个统计次数的告警策略
正常配置应该是
{agent-02.test:system.cpu.util[,idle].count(300,20,"le")}>3
这里为了测试就用另一台机子 设置成了99 和2次
导入一个大表的sql 来持续提升cpu,这边没敢用dd ,因为心虚啊。
开始操作
cpu空闲百分比下降到60%
zabbix web监控的最新数据
ok 告警来了
停止导入sql ,kill pid 等待告警恢复
因为需要5分钟内小于两次,而且检测有间隔,大概用了7分钟恢复
应用到生产