前言
大数据监控是指通过大数据技术手段获取、收集、分析数据,并能够准确分析信息,有效预测信息发展动态趋势。大数据监控主要围绕着海量全网数据,大多数需要借助监测系统来协助分析数据。
1. 大数据运维监控体系
监控维度 | 主要监控项 |
---|---|
底层基础监控 | 机房与网络(路由器、交换机等)、专线、服务器(CPU、内存、IO、磁盘、文件等)各类型日常的基础监控 |
服务状态监控 | 各类型标准组件存活状态(从业务的 SLB、Nginx、Java、Hdfs、Hive、ZK 等组件存活状态) |
组件性能监控 | 每种组件的 Metrics 性能监控,以 Hive 为例 (QPS、RPC、Metastore Canary、connection 等) |
Runtime监控 | 顾名思义,模拟客户端去 不间断循环与各式组件发起基本请求与操作,确认组件状态,比如每隔5 分钟去 与 HDFS 交互,完成新增、修改、删除、查询等基本操作,并获得操作结果状态与响应时间。 |
集群指标监控 | 集群的核心指标监控,比如文件大小分布、集群整体计算资源、集群整体存储资源等指标。 |
任务状态监控 | 任务状态、任务占用资源、任务延迟等。 |
趋势预测监控 | 存储与计算同比、环比上涨趋势、小文件同比环比上涨趋势、SLA 趋势预测 |
其实上面每个维度,都包含了很多的监控项与监控指标&#x