zabbix 监控hbase、es、hadoop进程,发出报警和远程重启服务。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wyl9527/article/details/80659979

需求:当我们的服务器部署了很多服务后,和服务器数量过多时,我们怎么去管理所有的服务,以及服务进程停止,第一时间发出报警,然后先自动远程执行服务。

1、下面我们举个例子,zabbix监控报警和自动执行服务的启动指令。

对于hadoop,hbase,es这样的集群部署,首先我们需要创建模板,将模板套进该集群组中。具体情况如下,这里我们直接讲过程,具体的每一步实现,在该系列博客中有讲到。



这样每个集群组中机器都一次性绑定上item,triggers,graph等,如果服务异常挂掉,就会发出报警信息,然后就会远程执行启动指令,具体情况如下。

第一行是发送报警邮件,下面的每个action执行相对应的操作。


我们点开其中一个远程执行的action看一下operation的配置


对于上面的配置我们解释一下:

1、第一个框中我们选择的是远程执行命令,对象就是本机,意思是当前主机的es服务若是挂掉,那么我们就重启该服务。

2、第二个框中我们选择ssh连接主机,输入用户名和密码,这里输入的用户和你执行脚本的用户需要注意一下,我这里用的是root,那是因为我脚本里切换了用户。

3、第三个框就是我们的启动脚本了,如下所示,这里切换了用户。

#!/bin/bash
su - hadoop <<EOF
cd /opt/elasticsearch
nohup ./bin/elasticsearch -d &
EOF
if [ $? -eq 0 ];
then echo "es is started...."
fi

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页