有时候训练服务器会发生一些异常、或者人为的重启,导致训练中断,如果能及时推送消息,就可以及时发现,对于个人开发或者小公司,没有专业运维的情况下,还是挺有用的。
下面来说一下具体的实现过程:
创建群机器人
在群对话界面找到设置
设置
中点击群机器人
机器人的hook按照下面的截图可以找到:
至此,飞书群机器人设置完成。
得到机器人的hook地址,会在下面的步骤中使用。
编写服务文件
$ sudo vim /etc/systemd/system/restart_notice.service
[Unit]
Description=restart notice service
Wants=multi-user.target
After=multi-user.target
[Service]
Type=simple
ExecStart=/home/zyq/start_notice.sh
Restart=on-failure
[Install]
WantedBy=default.target
编写开机时要执行的脚本:
#!/bin/sh
curl -X POST -H "Content-Type: application/json" \
-d '{"msg_type":"text","content":{"text":"'"hi, 192.168.3.111开机了"'"}}' \
https://open.feishu.cn/open-apis/bot/v2/hook/xxxxxxxxxxx(上面获取的飞书机器人hook地址)
授权:
$sudo chmod 0755 start_notice.sh
启动服务
$sudo systemctl list-unit-files --type=service |grep restart_notice
正常应该显示
restart_notice.service disabled
开机启动
$ sudo systemctl enable restart_notice.service # 开机自动启动on
重新加载参数
如果服务脚本改变了,可以重新加载
$ sudo systemctl daemon-reload
如果不生效,可以看下状态,根据报错信息进行解决
$ sudo systemctl status restart_notice