HANA故障记录
生产环境有一台HANA数据库,突然出现业务账号XXXX_PRD 无法登录的情况。排查步骤如下:
1、首先复现问题,尝试使用业务账号XXXX_PRD 登录,出现报错:
System can not be reached. the logon data could not be used
2、使用其他账号登录,可以正常登录。因此排除数据库故障
3、使用SYSTEM用户登录HANA,打开控制台,看到OVERVIEW里提示:Too many invalid connect attemps,判断是失败连接次数太多,导致用户被锁定,估计业务系统也出现用户账号相关的报错了,但是当时没看到;
4、打开SQL CONSOLE,执行解锁语句:
ALTER USER XXXX_PRD RESET CONNECT ATTEMPTS;
5、再次尝试XXXX_PRD 登录,能够登录成功。
最后对问题进行复盘,发现是因为数据库启动了定期修改密码的策略,但是数据库管理员修改密码后没有及时通知灰度发布环境,导致服务仍然在用旧的密码反复连接,最后用户账号被锁定。
改进策略:
- 增加对日志的监控,一旦发现数据库登录相关的错误,直接邮件干系人;
- 与基础设施部门沟通,增加一个信息对称的流程,一旦涉及到数据库密码修改、账号变动、权限变动,都用邮件或者消息客户端通知