运维子系统是通用平台重要的基础构件,运维节点则是运维子系统最重要,最基础的构成部分。运维节点被部署在每台服务器上,维护该台服务器上所有的运维任务。运维节点功能上篇已经描述,本篇简介运维节点实现上相关要点。
1. 守护功能
守护功能作为一个7x24小时运行系统而言是必不可少的,再稳定服务也有发生异常的时候,在服务异常退出运行后,就需要有一个守护来启动服务再次投入运行状态,通用平台设计运维子系统来承担该任务,具体由运维节点来进行服务守护工作。每台服务器上都被部署了运维节点,每个运维节点负责本机上所有服务的守护工作,由一而全身达到整个系统都处于守护之中。尽力避免服务异常退出后再无法重启的情况。
2. 服务更新
服务更新是运维子系统核心功能,承担整个系统运维最为重要部分。本人在后端服务维护中,很多时候进行外网服务运维工作都是基于手动完成,既费时费力,还容易出错。进行通用平台设计时就注意避免此类问题。
(一)运维任务发布和本地任务确定。
a. 当系统有服务更新需求时,管理员发布运维任务修改运维DB。
b. 发布服务将运维数据发布至数据子系统。
c. 运维节点从数据子系统获取运维数据。
d. 检测运维任务是