统一数据平台监控与运维系统GMonitor(简称监控工具)包含采集代理、采集中心和监控网站三大功能模块,其中每个功能模块又由多个组件组成;
监控网站:对外提供web服务,为用户提供可视化的操作管理平台,方便用户监控;
采集中心:负责对采集代理采集的数据进行汇总运算并推送报警;
采集代理:负责采集集群各个节点的指标数据;
在使用监控工具前,需要启动采集代理的监控服务,但是往往会因为一些配置原因导致启动监控失败,现总结部分启动失败的原因,如下
(1)节点类型配置错误,可以通过在集群coor节点执行gcadmin命令对比节点类型;
(2)检查代理服务所属中心各项服务是否正常;
(3)添加的采集代理服务器的ip、端口配置是否正确;
(4)如果节点类型包括gnode,此时代理服务会尝试连接当前节点的数据库,需检查代理所在的集群节点数据库服务是否正常,使用命令 gccli -h127.0.0.1 -ugbase ,如果连接失败请检查数据库服务;
(5)旧版本的监控工具(30.x.x.x版本),首先检查启动失败节点的agent服务是否已经启动,如未启动则需手动启动代理服务;
(6)将采集中心的日志级别改成debug并重启,观察启动日志找到getLocalIps字样并记录ip,使用这个ip和采集中心的端口(默认9999)在监控工具资源库的center表查找看是否能够找到。如找不到则需改变采集中心的ip。