前言
以组件监控为例,介绍监控产品的路线图
运维监控系统的作用不言而喻,贯穿运维的5项职能:发布、变更、故障处理、体验优化、日常需求,保障上述职能的服务可用性。
从大数据的特性(数据量大、多维度、完备性)[1]来看,运维监控系统的建设可以分为2个阶段:多维度监控(积累数据) 和 智能监控(使用数据),通过多维度监控实现出了故障能看、能查,智能监控提前发现风险、找出故障根源。
组件监控是多维度监控体系的第3层,主要对常见开源组件、中间件的性能指标做监控,比如Nginx的性能指标有Active Connections(当前客户端连接数)、Waiting(等待中的连接数)等,Oracle的性能指标有 SQL硬解析率、表空间使用率等。
通过采集组件的关键性能指标,实时获悉组件的运行状况,提前发现问题,而不是仅监控进程或端口是否存活(进程或端口都正常时,不代表可以提供服务)。
本文以建设组件监控为例,从多维度监控的组成、监控产品要解决的3个问题、组件监控的技术选型、云端下发采集器配置、社区的开放能力来介绍监控产品设计路线图。
1. 多维度监控的组成
从用户