ELK(Elasticsearch+LogStash+Kibana),最近使用ELK处理了一些平台日志,下面以「mysql连接数监控」记录部署流程。
背景
平台缺失针对mysql连接数的告警,一旦mysql连接数打满,将直接影响平台的使用。另外,对于日志信息既没有可视化界面进行操作,也没有一套有效的实时监控策略。
收益
1. 当异常触发时能够及时通过短信、邮件等方式通知相关负责人员
2. 建立日志可视化界面,使得日志分析更加便捷
1. 软件版本
软件 | 版本 |
---|---|
Logstash | v2.3.4 |
Filebeat | v1.3.1 |
ElasticSearch | v2.3.3 |
Kibana | v4.5.1 |
ElastAlert | v0.1.4 |
2. 解决方案
2.1. 监控架构图
2.2. mysql连接数查询
mysql的连接通常是一个请求占用一个连接,如果该请求(insert,delete,update,select)长时间没有执行完毕,则会造成连接的堆积,迅速地消耗完数据库的连接数,目前ph平台线上数据库的最大连接数是1000个。
这里使用一个shell脚本来持续监控mysql连接数情况,每分钟查询一次mysql的连接数,并写入到日志文件
日志样例参考:mysql连接数日志样例
shell脚本: mysql连接数查询脚本
轮询机制: crontab任务,每分钟轮询一次
# query mysql connection
* * * * * /bin/sh /home/disk5/query_mysql_connection_log.sh > /dev/null
mysql连接数日志样例
2017-01-20 00:01:01 machine_0001=4
2017-01-20 00:01:01 machine_0002=56
2017-01-20 00:01:01 machine_0003=13
2017-01-20 00:01:01 machine_0004=87
2017-01-20 00:01:01 total_connection_number=160
==========
2.3. FileBeat
配置
FileBeat配置文件请参见:附录-filebeat配置文件
FileBeat
负责监控mysql连接数查询产生的log(参考mysql连接数日志样例),并将不以===开头的内容上报到LogStash
配置信息
配置项 | 配置值 |
---|---|
是否合并多行 | No |
轮询时间间隔 | 120s |
文档类型 | mysql_connection_log |
监控路径 | /home/disk5/logs/mysql_connection_* |
筛选规则 | 不以===开头的log |
2.4. LogStash
配置
LogStash配置文件请参见:附录-logstash配置文件
正则匹配使用grok debug
工具进行调试(grok debug)
描述
收集FileBeat发送过来的log信息,获取日志时间和错误信息
输入
2017-01-20 10:18:01 machine_0001=62
正则匹配
%{TIMESTAMP_ISO8601:time}\s+%{USER:machine}=%{NUMBER:connection_num}
其中:TIMESTAMP_ISO8601、USER、NUMBER是LogStash的grok pattern变量
将得到:
time字段:日志时间
machine字段:机器host
connection_num字段:机器持有mysql的连接数
输出