zabbix监控系统
监控系统坏了怎么办:
对监控系统进行监控,监控系统负责监控网络
自动化运维,运维标准,机器管理,分布式集群,传统集群,自动部署,
容灾管理:
逻辑备份,物理备份
数据采集()主动,被动,复杂计算,阈值判别,智能分析(比如交换机坏了,对吧我不能说是整个交换机中的主机都有问题,这就需要分析,比如ping交换机,通过subprocess模块)
报警策略,联动处理,报警跟踪,问题管理,报警结束后相关工作人是否作了处理,可能需要自己添加api,对采集的数据进行处理,
zabbix概述
监控分布式的不同节点,如何满足企业中的需要呢,监控系统协议:
SNMP协议:简单网络监控协议,监控端与被监控端。管理端与agent端,需要认证,v2,3snmp get get-next
监控机制,zabbix,nagios,安装agent,专用agent架构,管理功能能够更强大,不想用agent,我可以通过ssh来监控。
监控端NMS,周期性的到被监控端采集数据,看他是否在线,无需装任何程序,但是我是用 的ansible
cacti
cacti 依赖于snmp,不是监控工具,数据采集保存数据数据展示(支持模板,保存数据保存多久,定时删除,roundrubdatabase,rrd轮转数据库,循环覆盖,rrdtool,数据的保存与绘图),给数据定义阈值,警告阈值,紧急阈值,cati支持报警插件,基于短信平台报警,触发速度慢,不适合大规模的架构的应用。监控nginx服务,活动人数,传输的字节数,流量。分开采集,若是大并发,保存要多大的io
能够监控
保存数据,
展示数据,
数据分析及报警,报警升级。发送邮件到不同级别的人,
nagios
nagios(报警工具也可保存数据,需要配置)
,报警功能很牛逼,第一次完成状态切换,然后再次检查是否正常,nagios可以实现邮件短信等
nagios能够分析依赖性关系,根据依赖关系则不在报警了。
nagios只关心正常与否的状态,采集的数据不保存,保存状态转换的时间断的数据
cati与nagios一起使用,无法对大量众多的节点使用,数量过多会有延迟,因此报警不行,nagios可以装插件
nagios支持主动监控,客户端向服务端(snmp可以用trap实现),有些设备不支持客户端。专用agent,支持snmp。
zabbix快速入门:
监控啥服务器,交换机 io ,操作系统,网络,数据库,nginx,磁盘,
Nagios(Opsviw,Icinga),Zabbix,
是nagios与cati工具的,自动检测新增的设备,支持代理,网络分区,每个分区有不同的负责人监控,支持分布式监控,然后汇总,开源工具,为小中型的,大型的淘宝阿里都是基于原有的zabbix自研的控制平台
简单同监控协议
无插件的监控
ipmi硬件的监控的
web monitor,网络的监控,页面在不在,下载速度,监控web服务的状态,页面的状态的监控
database monitor
Internal check
caculated Monitoring, 趋势上升的数据,利用采集点只差的数据,计算速率
Custom Command Monitor,基于agent监控
监控web
响应时间
下载速度
回复码
报警步骤,立即报警,10min中sms,15分钟ticket,email,sms,
10分钟我可以定时发送请求未解决定时发送请求,
但是存在防火墙,有些信息不能过,然后建立网络代理,一切由网络代理向zabbixserver发送消息如下,并发量减轻了,我需要在代码中加一个代理,
zabbix架构:
zabbix的界面,zabbix的数据库(RDMS 可以是mysql,oracle,保存大量数据,可以供以后数据挖掘),zabbix的服务端,webpages的监控ipmi的监控,系统的监控,gui可以是一个服务器,数据库可以主从设置,zabbix web gui也可以安装在一台服务器上。
代理监控,减轻zabbix的并发
zabbix组件概述:
zabbixserver:负责接收agent发送的报告消息的核心组件,所有配置,统计数据及操作数据均由其组织进行;
databases storage:用于存储所有配置信息,以及由zabbix收集的数据
web interface:zabbix的gui接口,通常与Server运行在同一台主机上
Proxy:可选组件,常用于分布式监控环境中,代理Server收集部分被监控杜纳的监控数据并同一发往Server端
Agent:部署在被监控主机上,负责收集本地数据并发往Server与Proxy端
zabbix的架构:
Server3是数据库服务器,server1是节后苏信息处理信息的服务器,server2是前端界面显示器,
zabbix_agented强大到让你每个客户端自查,zabbix_get定义了黑白名单,主动发数据到客户端zabbix_sender与zabbixServer通信,zabbixget与zabbixagent通信获取数据,server100中的zabbix agentd 能监控Device,appliaction,与database,基于jmx监控,每个节点(agent)都需要配置文件与日志文件
触发器,评估数据是否在阈值内的评估标准
事件:发生了值得关注的事,比如新的agent上线了,
动作:对于特定事件事先定义的处理方法,通过包含操作(如发送通知)和条件(何时执行操作)
报警升级:发送警告或执行远程命令的自定义方案,每隔5分钟发送1次警报,共发送5次
媒介:发送通知的手段或者通道Email Jabber或者SMS等
通知:通过媒介发送有关某事件的信息。
不同事件发送内容不一样,根据事件替换宏,就是个变量。
远程命令:预定义的命令,可在被监控主机处于某特定条件下自动执行
模板用于快速定义被监控主机的预设条目集合,通常包含了item trrigger触发器,graph,screen(多个graph),application以及low-level discover rule;模板可以直接单个主机
应用:一组item的集合
web 场景:用于检测web站点可用性的一个或多个HTTP请求
前端:Zabbix的web接口
zabbix的安装,同时安装server与agent,并支持将数据放入到mysql中
[外链图片转存失败(img-miqdcUh8-1566138457314)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images!1566132833606.png)]
待续点:
zabbix使用进阶:
zabbix分布式监控,自动发现节点,自动添加到监控节点中去。