一次由脚本升级引发的故障

在日常开发及运维工作中,可能会遇到各种各样的程序故障。
大部分故障都是由代码bug或操作不当引起,下面就9月2日发生的一次脚本升级故障说起。

最近对进程监控相关脚本进行优化,周五在几台机器上测试OK。考虑到这次修改并不涉及主要逻辑变更,还是选择了下班后更新脚本。
晚上十点多钟的时候接到运维同事打来的电话,反映有好几台机器上的log_monitor.pl进程占用大量系统资源,严重影响业务程序运行。

考虑到晚上刚刚对脚本进行升级,第一反应当然是更新后的脚本问题,于是马上中断正在进行的升级操作,对代码进行紧急回退,并kill所有正在运行的脚本。
脚本全部回退并结束所有正在运行的进程之后,终于不再出现系统资源占用过高的机器,这才开始彻查产生故障的原因。

这里监控脚本消耗系统资源主要表现在下面两个方面:
1、监控脚本本身占用大量内存,最高多达7.1G。
2、部分机器上拉起大量logclient进程(上报远程日志的客户端程序),消耗大量系统资源。

经反复核查测试,发现问题并非由新脚本引起,而是出在脚本升级过程中。详述如下:

一、更新前的监控脚本包含以下处理逻辑:
1、脚本每次执行完,都会上传本次执行的监控日志到远程logserver(新脚本已取消该逻辑)。
2、上传远程日志时会调用get_main_ip.sh获取本地IP(脚本执行前会检查该是否存在)。

二、新监控脚本升级过程如下:
1、清理conf、bin、tmp目录下所有脚本及配置文件,保留log目录下所有日志。
2、用新脚本及配置文件覆盖对应目录。

三、产生问题的场景及原因分析:
当新脚本升级的时候如果老脚本已被调起,则:
1、老脚本在上传监控日志时找不到配置文件,从而尝试上传整个监控日志内容,导致大量logclient进程被拉起。
2、上传远程日志的时候,如果get_main_ip.sh文件被删除,会触发一个隐含的递归调用消耗大量内存。
注:上面两种情况在更新后的脚本中实际都已消除,新脚本不再上传监控日志,也消除了隐含的递归调用。

四、规避此类问题的方法:
1、脚本升级时,采用先清理原有文件、再杀原有进程、最后覆盖新文件的方式。
2、避免多个处理过程之间隐含的递归调用。
3、增强代码健壮性,加强对运行过程中类似文件被意外删除等异常情况的处理,避免出现不可预料的后果。

五、从规范上保证程序健壮性:
1、对于公共脚本(在所有机器部署的),代码至少由两个人进行二次验证。
2、代码升级前必须灰度。
3、对循环中的敏感操作进行确认(如fork,发送告警,拉起其它脚本等)。
4、对需要频繁执行的程序,增加不可重入的逻辑,避免程序同时运行多个实例。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值