普罗米修斯搭建及报警
prometheus server: 普罗米修斯的主服务器
nodeexpoter:负责收集host硬件信息和操作信息
cadvisor(Google开发):负责收集host上运行的容器信息
grafana:负责展示普罗米修斯的监控界面
每台都装 cadvisor node-exporter 选择一台安装普罗米修斯
docker pull google/cadvisor
docker run \
--volume=/:/rootfs:ro \
--volume=/var/run:/var/run:rw \
--volume=/sys:/sys:ro \
--volume=/var/lib/docker/:/var/lib/docker:ro \
--publish=8080:8080 \
--detach=true \
--name=cadvisor \
--net=host \
google/cadvisor:latest
docker pull prom/node-exporte
docker run -d -p 9100:9100 \
-v "/proc:/host/proc" \
-v "/sys:/host/sys" \
-v "/:/rootfs" \
--net=host \
prom/node-exporter \
--path.procfs /host/proc \
--path.sysfs /host/sys \
--collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc|rootfs/var/lib/docker/containers|rootfs/var/lib/docker/overlay2|rootfs/run/docker/netns|rootfs/var/lib/docker/devicemapper|rootfs/var/lib/docker/aufs)($$|/)"
// --net=host prometheus server可以直接与node-expoter 进行通信
修改prometheus.yml
vi prometheus.yml
static_configs:
- targets: ['localhost:9090',' .....'] //在这里添加每台客户机的ip+端口
启动prometheus容器
docker run -d -p 9090:9090 \
> -v /root/prometheus.yml:/etc/prometheus/prometheus.yml \
> --name prometheus \
> --net=host \
> prom/prometheus
启动grafana
docker run -id -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://grafana.server.name" -e "GF_SECURITY_ADMIN_PASSWORD=secret" --net=host grafana/grafana
访问http://192.168.1.101:3000 选择数据源
选择普罗米修斯
导入想用的模板,可以去grafana官网挑选自己喜欢模板
链接: 这里.
普罗米修斯报警
拉取alertmanager镜像
docker pull prom/alertmanager
复制出一份alertmanager的yml文件
docker run --name alert -d -p 9093:9093 prom/alertmanager
docker cp alert:/etc/alertmanager/alertmanager.yml ./
备份
cp alertmanager.yml alertmanager.yml.bak
用下面的yaml文件
global:
resolve_timeout: 5m
smtp_from: 'xxxxxxxx@qq.com'
smtp_smarthost: 'smtp.qq.com:465'
smtp_auth_username: 'xxxxxxxx@qq.com'
smtp_auth_password: 'xxxxxxxxxxxxxxxxx'
smtp_require_tls: false
smtp_hello: 'qq.com'
route:
group_by: ['alertname']
group_wait: 5s
group_interval: 5s
repeat_interval: 5m
receiver: 'email'
receivers:
- name: 'email'
email_configs:
- to: 'xxxxxxxx@qq.com'
send_resolved: true
inhibit_rules:
- source_match:
serverity: 'critical'
target_match:
severity: 'warning'
equal: ['alertname','dev','instance']
启动容器:
docker run -d --name alert -p 9093:9093 -v /root/alert/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager
vi node-up.rules // job名字是普罗米修斯yml文件中设置的job name
groups:
- name: node-up
rules:
- alert: node-up
expr: up{job="prometheus"} == 0
for: 15s
labels:
severity: 1
team: node
annotations:
summary: "{{ $labels.instance }} 已停止运行超过15s!"
修改prometheus.yml文件
重新启动容器:
docker run -d -p 9090:9090 -v /root/prometheus.yml:/etc/prometheus/prometheus.yml -v /root/rules:/usr/local/prometheus/rules --name prometheus --net=host prom/prometheus
如果网页中rules未出现,去检查node-up.rules 和prometheus.yml 是否有问题,如果停止一个容器他没有邮件,去检查alertmanager里面yml是否有问题,一般有问题这个容器是起不来的