prometheus
1.监控系统
监控系统三代,第一代监控以监控网络设备、网络流量为主的时代,代表协议有(SNMP、监控交换机、路由、网关、操作系统等)这些的系统/设备都需要内置对SNMP协议的支持,SNMP是网络管理协议,在监控手段、技术的不断迭代的过程中,虽然可以使用、兼容SNMP协议,但是很多的技术都“抛弃”了内置。第二代监控以现今常用的大家所熟悉的zabbix、prometheus、cacti、nagios、open_falcaon(小米开源的企业级的监控工具)通常具备:数据采集、存储、告警+展示/可视化等基本功能。第三代监控一般为基于data驱动、ai驱动datavops aivops。
2.常用监控介绍
2.1cacti
Cacti(仙人掌)是一套基于PHP/MySQL、SNMP和RRDtool开发的网络流量检测图形分析工具,它通过snmpget来获取数据,使用RRDtool绘图,蛋使用者无需了解RRDtool复杂的参数,它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结构、主机设备以及任何一张图,同事也可以自定义模板,在历史数据的展示监控方面,功能是相当不错的
2.2Nagios
Nagios是开源的网络监视工具,能有效的监控windows、Linux和Unix的主机状态,交换机、打印机、路由器等网络设备,在系统或服务状态异常时发出邮件或者短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或者短信通知。nagios主要的特征是监控告警,最强大的也是告警功能,支持多种告警方式,但是缺点时没有强大的数据收集机制,并且数据图也很简陋,
2.3zabbix
zabbix是一个基于WEB界面的提供分布式监控以及网络监视功能的企业级的开源解决方案,zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供强大的通知机制。
zabbix由两部分组成:zabbix server以及可选组件zabbix agent,zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供远程服务器、网络章台多的监视,数据的收集等功能。zabbix解决了cacti没有告警的不足,也解决了nagios不能通过web配置的缺点,同时还支持分布式部署,这使得它迅速流行起来,zabbix也成为目前中小企业监控最流行的运维监控平台。当然,zabbix也有不足之处,它消耗的资源比较多,如果监控的主机非常多时(服务器数量超过500台),可能会出现监控超时、告警超时、告警系统单点故障等现象,不过也有很多解决办法,比如提高硬件性能、改变zabbix监控模式等。
2.3.1zabbix核心组件介绍
- Zabbix Server:Zabbix软件实现监控的核心程序,主要功能是与Zabbixproxies和Agents进行交互、触发器计算、发送告警通知;并将数据集中保存。与prometheus的类似可以保存收集到的数据,但是prometheus告警需要使用altermanager组件
- Database storage:存储配置信息以及收集到的数据
- web Interface: Zabbix的GUI接口,通常与server运行在同一台机器上
- Proxy:可选组件,常用于分布式监控环境中,一个帮助zabbix Server收集数据,分担zabbix Server的负载的程序
- Agent:部署在被监控主机上,负责收集数据发送给server
3.Prometheus
谷歌的内部大型集群系统borg,是kubernetes的前身。其监控系统是borgmon,而prometheus是其克隆版,所以非常契合k8s的监控对容器非常适用。
Prometheus本身为一种时序数据库(TSDB),还具备开源的监控、报警、时间序列、数据库的组合。其设计用于进行目标(target)监控的关键组件
- TSDB:pro通过采集的样本以时间序列的方式保存在内存(TSDB时序数据库)中并定时保存到硬盘中(持久化)
- target:主要指可输出、产生指标数据的组件/对象,包括但不限于主机、应用、服务、K8S ingress(逻辑组件)等
- 时序数据:一段时间内通过《重复》测量而获得的观测值的集合,并且可将这些观测值绘制与图形之上,以数据轴(纵轴)和时间轴(横轴)来表示随着时间流逝而产生的“渐变”变化。
时序数据库不属于sql数据库也并不是nosql数据库
prometheus官网
3.1prometheus特性
- 多为的数据模型(基于时间序列的key、value键值对)
- 灵活的查询和聚合语言PromQL
- 提供本地存储和分布式存储
- 通过基于HTTP和HTTPS的Pull模型采集时间序列数据(pull数据的推送,时间序列:每段时间点的数据值指标,持续性的生产。横轴标识时间,纵轴为数据值,一段时间内数值的动态变化,所有的点连线形成折线图)
- 可用Pushgateway(prometheus的可选中间件)实现Push模式
- 可通过动态服务发现或者静态配置发现目标机器
- 支持多种图表和数据大盘
3.2prometheus组件
- Prometheus Server:用于抓取指标、存储时间序列数据
- exporter:用于暴露现有应用程序或服务
- pushgateway:push 的方式将指标数据推送到该网关
- alertmanager:处理报警的报警组件 adhoc:用于数据查询
- Alertmanager:由告警规则对接,从Prometheus Server接收到"告警通知"后,通过去重、分组、路由等预处理功能后以高效向用户完成告警信息发送
- Data Visualization(Dashboards): 与TSDB对接并且展示数据库中的数据,Prometheus web UI (Prometheus Server内建),及Grafana等;
- Service Discovery:动态发现待监控的Target,从而完成监控配置的重要组件,在容器化环境中尤为有用;该组件目前由PropetheusServer内建支持
3.3白盒监控和黑盒监控
- 白盒监控:通过监控内部的运行状态及指标判断可能会发生的问题,从而做出预判或对其进行优化。
- 黑盒监控:监控系统或服务,在发生异常时做出相应措施。
- 监控的目的如下:
根据历史监控数据,对为了做出预测
发生异常时,即使报警,或做出相应措施
根据监控报警及时定位问题根源
通过可视化图表展示,便于直观获取信息
4.这里展示如何获取邮箱的授权码
打开qq邮箱,点击设置-账户-POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务(开启,并点击生成授权码,用手机发送配置邮件客户端,既可以获得授权码)
5.部署Prometheus监控并设置告警
监控端
192.168.20.22 /alertmanager prometheus
被监控端
192.168.20.11 node exporter
- 192.168.20.11部署node_exporter(端口号9100)
[root@node opt]# ls
node_exporter-1.1.2.linux-amd64.tar.gz rh
[root@node opt]# tar zxvf node_exporter-1.1.2.linux-amd64
[root@node opt]# cd node_exporter-1.1.2.linux-amd64/
[root@node node_exporter-1.1.2.linux-amd64]# ls
LICENSE node_exporter NOTICE
[root@node node_exporter-1.1.2.linux-amd64]# ./node_exporter //执行启动脚本
- 192.168.20.22部署Prometheus(端口号9090)
[root@prometheus opt]# ls
alertmanager-0.22.2.linux-amd64.tar.gz prometheus-2.27.1.linux-amd64.tar.gz
grafana-7.3.6-1.x86_64.rpm rh
[root@prometheus opt]# tar zxvf prometheus-2.27.1.linux-amd64.tar.gz -C /usr/local/
[root@prometheus opt]# cd /usr/local/
[root@prometheus local]# ls
bin games lib libexec sbin src
etc include lib64 prometheus-2.27.1.linux-amd64 share
[root@prometheus prometheus-2.27.1.linux-amd64]# ls
console_libraries consoles data LICENSE NOTICE prometheus prometheus.yml promtool
-这里设置监控node节点的话只需要修改prometheus服务器上的配置为文件,指定targets的端口上面配置过
[root@prometheus prometheus-2.27.1.linux-amd64]# vim prometheus.yml
在最后加入
- job_name: 'nodes'
static_config:
- targets:
- 192.168.20.11:9100
[root@prometheus prometheus-2.27.1.linux-amd64]# ./prometheus //执行启动脚本
这里已经可以在prometheus的ui界面查看
-
如果这里需要用grafana(端口号3000)更友好的显示,只需要安装即可,就不演示了,grafana有很多的监控模板,比如K8S、node、mysql等
-
部署alertmanager(端口号为9093)
[root@prometheus opt]# tar zxvf alertmanager-0.22.2.linux-amd64.tar.gz -C /usr/local/
[root@prometheus opt]# ln -s /usr/local/alertmanager-0.22.2.linux-amd64/ /usr/local/alertmanager
#查看配置文件
cat /usr/local/alertmanager/alertmanager.yml
route: #路由信息
group_by: ['alertname'] #分组
group_wait: 30s #分组缓冲/等待时间
group_interval: 5m #重新分组时间
repeat_interval: 1h #重新告警间隔(10m)
receiver: 'web.hook' #接收方/媒介
receivers: #接收方信息
- name: 'web.hook'
webhook_configs:
- url: 'http://127.0.0.1:5001/' #标注5001端口
inhibit_rules: #抑制规则的策略
- source_match: #匹配项
severity: 'critical' #严重的级别
target_match:
severity: 'warning' #target匹配warning级别
equal: ['alertname', 'dev', 'instance'] #符合alertname、dev、instance的分组、分类对象
[root@prometheus opt]# cd /usr/local/alertmanager
[root@prometheus alertmanager]#mv /usr/local/alertmanager/alertmanager.yml /usr/local/alertmanager/alertmanager.yml.bak
[root@prometheus alertmanager]#cd /usr/local/alertmanager && vim /alertmanager.yml
global: #全局参数
resolve_timeout: 5m #告警解除时间
smtp_from: 1137880933@qq.com
smtp_auth_username: 1137880933@qq.com
smtp_auth_password: qqqatniabvdlhjjj //授权码
smtp_require_tls: false
smtp_smarthost: 'smtp.qq.com:465'
route:
group_by: ['alertname']
group_wait: 10s
group_interval: 10s
repeat_interval: 1h
receiver: 'email-test'
receivers:
- name: 'email-test'
email_configs:
- to: 1137880933@qq.com
send_resolved: true
[root@prometheus alertmanager]#./alertmanager //启动脚本
- 告警规则
[root@prometheus alert_rules]# cat instance_down.yaml
groups:
- name: AllInstances
rules:
- alert: InstanceDown
# Condition for alerting
expr: up == 0
for: 20s
# Annotation - additional informational labels to store more information
annotations:
title: 'Instance down'
description: Instance has been down for more than 20 seconds.'
# Labels - additional labels to be attached to the alert
labels:
severity: 'critical'
- 在prometheus的归档文件中,设置告警规则
[root@prometheus prometheus-2.27.1.linux-amd64]# pwd
/usr/local/prometheus-2.27.1.linux-amd64
[root@prometheus prometheus-2.27.1.linux-amd64]# tree -L 3
.
├── alert-config
│ ├── alert_rules
│ │ └── instance_down.yaml
│ ├── prometheus.yml
│ └── targets
│ ├── alertmanagers.yaml
│ ├── nodes-linux.yaml
│ └── prometheus-servers.yaml
[root@prometheus alert-config]# cat prometheus.yml
# my global config
# Author: MageEdu <mage@magedu.com>
# Repo: http://gitlab.magedu.com/MageEdu/prometheus-configs/
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- file_sd_configs:
- files:
- "targets/alertmanagers*.yaml"
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
- "rules/*.yaml"
- "alert_rules/*.yaml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
file_sd_configs:
- files:
- targets/prometheus-*.yaml
refresh_interval: 2m
# All nodes
- job_name: 'nodes'
file_sd_configs:
- files:
- targets/nodes-*.yaml
refresh_interval: 2m
- job_name: 'alertmanagers'
file_sd_configs:
- files:
- targets/alertmanagers*.yaml
refresh_interval: 2m
[root@prometheus targets]# ls
alertmanagers.yaml nodes-linux.yaml prometheus-servers.yaml
[root@prometheus targets]# cat alertmanagers.yaml
- targets:
- 192.168.20.22:9093
labels:
app: alertmanager
[root@prometheus targets]# cat nodes-linux.yaml
- targets:
- 192.168.20.11:9100
labels:
app: node-exporter
job: node
[root@prometheus targets]# cat prometheus-servers.yaml
- targets:
- 192.168.20.22:9090
labels:
app: prometheus
job: prometheus
- 指定文件启动
[root@prometheus prometheus-2.27.1.linux-amd64]# ./prometheus --config.file=./alert-config/prometheus.yml