经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。
对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。
也希望遇到问题的朋友能找到一丝灵感解决问题。
01
事故背景
安排一个妹子在一台生产服务器上安装 Oracle,妹子边研究边安装,感觉装的不对,准备卸载重新安装。
从网上找到卸载方法,其中要执行一行命令删除 Oracle 的安装目录,命令如下:
rm -rf $ORACLE_BASE/*
如果 ORACLE_BASE 这个变量没有赋值,那命令就变成了:
rm -rf /*
等等,妹子使用的可是 Root 账户啊。就这样,把整个盘的文件全部删除了,包括应用 Tomcat、MySQL 数据库 and so on……
MySQL 数据库不是在运行吗?Linux 能删除正在执行的文件?反正是彻底删除了,最后还剩一个 Tomcat 的 Log 文件,估计是文件过大,一时没有删除成功。
看着妹子自责的眼神,又是因为这事是我安排她做的,也没有跟她讲清厉害关系,没有任何培训,责任只能一个人背了,况且怎么能让美女背负这个责任呢?
打电话到机房,将盘挂到另一台服务器上,SSH 上去查看文件全部被清,这台服务器运行的可是一个客户的生产系统啊,已经运行大半年了,得尽快恢复啊。
于是找来脱机备份的数据库,发现备份文件只有 1KB,里面只有几行熟悉的 mysqldump 注释(难道是 Crontab 执行的备份脚本有问题),最接近的备份也是 2013 年 12 月份的了,真是屋漏偏逢连夜雨啊。
**想起来一位领导说过的案例:**当一个生产系统挂掉以后,发现所有备份都有问题,刻录的光盘也有划痕,磁带机也坏了(一个业界前辈,估计以前还用光盘做备份了),没想到今天真的应验到我的身上了,怎么办?
部门领导知道情况后,已经做了最坏的 B 计划:领导亲自带队和产品 AA 周日赶到客户所在的地市,星期一去领导层沟通;BB 和 CC 去客户管理员那边想办法说服客户……
02