聊聊监控系统

监控系统背景

监控系统“三代”

  • 第一代:以监控网络设备、网络流量为主的时代,代表协议(SNMP,监控交换机、路由、网关、操作系统等)

    • SNMP:网络管理协议,在监控手段、技术的不断迭代的过程中,虽然可以使用、兼容SNMP协议,但很多技术都"抛弃"了内置对SNMP协议的兼容
  • 第二代:zabbix prometheus cacti nagios open-falcaon等

    • 通常具备:数据采集、存储、告警+展示/可视化等基本功能
  • 第三代:基于data驱动、ai驱动datavops aivops(立体监控)

    • 需要了解在立体监控系统支撑下对系统运行状态的分析、监控、反馈到系统展示

监控类型

监控分为事前监控和事后监控。(事表示的事异常状态发生)

  • 事前监控:监控系统的运行状态,趋势分析,是否在某一时间会发生异常。
  • 事后监控:没有异常不会报警,出现异常就报警。

系统不稳定是常态、稳定是特殊的表现形式。
大多数系统不是自治的,所以即使使用控制起来进行系统管理,但随着时间推移,依然无发保证持续性的自治。所以做为使用者而言,通过监控来了解系统的运行特性,来做对应的处理决策是相当重要的

基础/逻辑概念

1、基础/逻辑概念前提

监控系统的四个基础功能,以监控系统的主体而言,使用/管理者所关注的被监控"系统"(端)的相关组件,例如路由器、交换机、网关、应用、基础设施服务、业务特征等。

2、基础/逻辑概念

以上对象必须允许在基础设施层,例如物理主机、vm、 container
我们需要对这些基础设施层中关键的,伴随时间变化而变化的数据,进行采集分析,而此类数据称之为【指标】

  • 1、指标数据采集到之后,作为"点状数据”,而此类点状数据称之为【样本数据】
  • 2、而此类【样本数据】做为事后的分析(趋势分析),如果我们所需要监控的目标特别多,那么我们就需要存储大量数据
  • 3、在持续存储性能表现上必须要【TSDB数据库】,接下来对此类样本数据进行分析,明确系统运行状态、特性,来预测、判断未来的某一时间、时刻是否会出现问题才是我们的目的
  • 4、同时为了结果的可观测及清晰性,我们会做一些【可视化】处理分析功能,所以需要控制台(例如grafana)(目前的形式,可视化与低代码趋势)。过滤手段: PromQL(数据过滤语句)
  • 5、我们也需要有一个守护进程,实时监测特定的样本序列、指标时间序列是否有异常状态而通常此类异常状态的判断会以一种【布尔值表达式】的方式来做为判断依据
  • 6、满足布尔值表达式的要求的指标我们认为时异常指标,而此时我们就可以通过触发一种"媒介"”( mnedia),把异常信息通知给用户。例如钉钉、微信、短信、邮件等
监控执行的顺序

指标数据采集—》样本数据存储—》可视化展示—》指标数据过滤—》异常指标判断—》告警通知——》用户

监控平台设计思路

分为三大模块:

  • 1、数据收集模块
  • 2、数据提取模块
  • 3、监控告警模块

在三大模块上可以细分为6层:

  • 第六层:用户展示管理层同一用户管理、集中监控、集中维护
  • 第五层:告警事件生成层实时记录告警事件、形成分析图表(趋势分析、可视化)
  • 第四层:告警规则配置层告警规则设置、告警伐值设置
  • 第三层:数据提取层定时采集数据到监控模块
  • 第二层:数据展示层数据生成曲线图展示(对时序数据的动态展示)
  • 第一层:数据收集层多渠道监控数据(网络、硬件、应用、数据,物理环境)

常用监控简介

1、cacti

Cacti(英文含义为仙人掌〉是一套基于PHP,MySQL、SRMP和 RRDtoo1开发的网络流量监测图形分析工具。
它通过snmpget来获取数据,使用RRDTool绘图,但使用者无须了解RRDTool复杂的参数。它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结构、主机设备以及任何一张图,还可以与LDAP结合进行用户认证,同时也能自定义模板,在历史数据的展示监控方面,其功能相当不错。
Cacti通过添加模板,使不同设备的监控添加具有可复用性,并且具备可自定义绘图的功能,具有强大的运算能力(数据的叠加功能)

2.Nagios

  • Nagio:是一款开源的免费网络监视工具,能有效监控windows、Linux和Unix的主机状态,交换机路由器等网络设置打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。
  • Nagios主要的特征是监控告警,最强大的就是告警功能,可支持多种告警方式,但缺点是没有强大的数据收集机制,并且数据出图也很简网,当监控的主机越来越多时,添加主机也非常麻烦,配置文件都是基于文本配置的,不支持web方式管理和配置,这样很容易出错,不宣维护。

3.Zabbix

  • zabblx是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供强大的通知机制以让系统运维人员快速定位/解决存在的各种问题。
  • zabbix由2部分构成,zabbix server与可选组件zabbix agent.。zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux, Solaris,HPUX,AIX,Free BSD, Open BSD, os x等平台上。
  • zabbix解决了cacti没有告警的不足,也解决了nagios不能通过web配置的缺点,同时还支持分布式部署,这使得它迅速流行起来,zabbix也成为目前中小企业监控最流行的运维监控平台。
  • zabbix也有不足之处,它消耗的资源比较多,如果监控的主机非常多时(服务器数量超过500台),可能会出现监控超时、告警超时、告警系统单点故障等现象,不过也有很多解决办法,比如提高硬件性能、改变zabbix监控模式等。
    • agent代理:专门的代理服务方式进行监控,专属的协议,装有zabbix-agent的主机就可以被zabbix-server监控,主动或被动的方式,把数据给到server进行处理。
    • ssh/telent: linux主机支持ssh/telent协议
    • snmp:网络设备路由器、交换机不能安装第三方程序(agent)),使用简单网络协议。大多数的路由器设备支持SNMP协议
    • ipmi:通过ipmi接口进行监控,我们可以通过标准的ipmi硬件接口,监控被监控对象的物理特征,比如电压,温度,风扇状态,电源情况,被广泛使用服务监控中,包括采集cpu温度,风扇转速,主板温度,及远程开关机等等,而且.ipmi独立于硬件和操作系统,无论是cpu,bios还是os出现故障,都不会影响ipmi的工.作,因为ipmi的硬件设备BAC(bashbard management controller)是独立的板卡,独立供电。

zabbix核心组件介绍

1.zabbix
  • Server:Zabbix软件实现监控的核心程序,主要功能是与Zabbixproxies和Agents进行交互、触发器计算、发送告警通知;并将数据集中保存。与prometheus的类似可以保存收集到的数据,但是prometheus告警需要使用alter manager组件
2.Database storage
  • 存储配置信息以及收集到的数据
3.web Interface:
  • Zabbix的GUI接口,通常与server运行在同一台机器上
4.Proxy
  • 可选组件,常用于分布式监控环境中,一个帮助zabbix Server收集数据,分担zabbix Server的负载的程序
5.Agent
  • 部著在被监控主机上,负责收集数据发送给server

4.Prometheus

因为现在行业中容器技术而非常火热的一种监控技术

Prometheus具有以下特性

  • 多维的数据模型(基于时间序列的Key、 value键值对)
  • 灵活的查询和聚合语吉PromQL
  • 提供本地存储和分布式存储
  • 通过基于HTTP和HTTPS的Pull模型采集时间序列数据(pull数据的拉取,时间序列:每段时间点的数据值指标,持续性的产生。横轴标识时间,纵轴为数据值,一段时间内数值的动态变化,所有的点连线形成大盘式的折线图)
  • 可利用Pushgateway (Prometheus的可选中间件)实现ush模式
  • 可通过动态服务发现或静态配置发现目标机器(通过consul自动发现和收缩)。
  • 支持多种图表和数据大盘

补充: open-Falcaon是小米开源的企业级监控工具,用co语言开发,包括小米、滴滴、美团等在内的互联网公司都在使用它,是一款灵活、可拓展并且高性能的监控方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值