作者:焦振清
时间:2018-06-26
基于Google的监控方案,将ES监控归为两大类五个子类,分别是黑盒监控和白盒监控(四个黄金指标),详情可以参考书籍《SRE Google运维解密》第53页
黑盒监控
- 功能监控
白盒监控
- 错误
- MissingBlocks(坏块)
- NumDeadDataNodes(故障节点)
- CorruptBlocks
- UnderReplicatedBlocks
- ExpiredHeartbeats
- 容量
- PercentUsed
- CallQueueLength
- TotalFiles
- TotalBlock
- 延时
- RpcProcessingTimeAvgTime
- 流量
- IO_read
- IO_write
- blocks_read
- blocks_write
指标说明:
1,功能监控,需要周期性检测HDFS集群能否写入文件,读取文件。