前言
这两天看到SRETalk公众号的秦总,写了个新工具太卷了,史上最简单的监控系统 catpaw 简介,而且目前最新版还提供硬件监控的能力机器硬件监控,最简单的方案,没有之一 ,看上去挺厉害的,特地来体验这个轻量级告警监控的工具,上手把玩一下看看咋样。
使用介绍
使用起来其实还挺简单,所需要准备:
- 部署catepaw
catepaw 作为采集器直接在目标机器上采集异常事件,启动前修改对应配置,插件配置。
catpaw 不能取代指标监控和日志系统,它只是一个轻量的 check 工具,一些场景举例:
- 探测某个 HTTP 地址,如果不可用,把不可用的原因发出来
- 探测某个 TCP 地址,如果不可用,把不可用的原因发出来
- 探测某个文件,如果文件不存在,或者 MD5 发生变化,发出告警事件
- 探测 ulimit 配置,如果发现不合理,发出告警事件
- 探测目录是否可读可写,如果异常发出告警事件
- 探测是否有目录已写满,如果写满的目录,发出告警事件,把 df -h 的结果一并发出来
- 探测某个进程是否存在,如果不存在,发出告警事件
- 探测 MySQL 慢查询,如果发现慢SQL,发出告警事件,事件中带上SQL
- 探测 MySQL 主从延迟,如果延迟超过阈值,发出告警事件,事件中带上延迟时间以及两个 Thread 的情况
- 接收 SNMP Trap 消息,如果消息中包含某个关键字,发出告警事件
- 检查系统日志,如果出现某个关键字,告警,把日志详情一并发出来
- ….
更多场景不再赘述,其特点基本上可以概括为:
- check 的时候已经可以知道是否正常
- check 的时候大概率可以拿到异常原因或者现场值,把这些信息一并发出来