达梦数据库故障处理流程
收集信息,对问题定性。
分析定位问题,找到原因。
能处理当场处理、无法处理的则重现问题。
问题反馈,上报BUG。问题定性
确定问题的重要性
确定问题的紧迫性
问题的种类:A、B、C
等
项目的状态:上线、开发、测试
影响范围:点、面
用户关切度:非常、一般
客户关系度:好、一般、紧张
问题种类
A: 最严重错误,系统崩溃,或性能极差,计算结果错误等
B: 严重错误,系统崩溃
C: 一般性错误
D: 功能的补充完善
E: 费时但不重要的功能
F: 文档或安装方面的问题
G: 体系结构限制,一时难以解决
紧急问题处理流程
重要且紧迫的问题:
首要任务不是找到问题的原因、而是要尽快恢复数据库服务。
能够绕过的问题,通过重启、等价改写SQL或暂停使用相关模块等变通的方法处理 。
无法绕过问题,做好用户沟通工作,稳住客户,让客户有信心。
尽快定位问题,并将重现步骤反馈给开发人员。
问题定位和分析
系统出现问题,无法及时响应用户/应用请求时,可能的原因是多方面的。一般来说
网络是否正常
内存使用量
CPU使用率
I/O是否正常
系统日志
动态性能视图
信息收集
LINUX常用监控命令
free命令查看内存使用情况
top命令查看cpu使用率
iostat命令查看磁盘I/O使用情况
nmon工具监控系统一段时间的整体情况
通过nmon工具可以实时查看服务器负载情况,包括cpu 内存 硬盘的访问情况,也可以通过定时采集形成报表
信息收集
系统信息收集工具nmon
通过nmon工具可以实时查看服务器负载情况,包括cpu 内存 硬盘的访问情况,也可以通过定时采集形成报表
系统日志
事件日志
系统启动、关闭、内存申请失败、IO错误等一些致命错误。
跟踪日志
系统各会话执行的SQ