原文链接:
https://www.gbase.cn/community/post/4022
更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。
1 数据库服务异常
1.1 GBase集群服务进程crash
现象描述
集群各节点服务:gclusterd、gbased、gcware、gcrecover、gc_sync_server 5个进程异常crash。
现象分析
集群各节点服务:gclusterd、gbased、gcware、gcrecover、gc_sync_server 5个进程异常crash。
应急操作流程
此种异常大多由于某条SQL或某场景下触发GBase bug导致,需要通知应用协助排查问题原因。
1)通知开放平台和GBase厂商协助排查问题。
2)运行部门分析系统中运行的异常SQL。
3)运行部门停止产生问题的SQL。
4)GBase厂商分析该问题场景,提供短期解决方法及后续修复时间。
1.2.GBase集群服务无法启动
现象描述
集群各节点服务:gclusterd、gbased、gcware、gcrecover、gc_sync_server服务无法启动。
现象分析
集群各节点服务:gclusterd、gbased、gcware、gcrecover、gc_sync_server 服务无法启动,通常情况为GBase集群产品bug导致。
应急操作流程
通常情况为GBase集群产品bug导致。
1)运行部门通知开放平台和GBase厂商协助排查问题。
2)运行部门和GBase厂商分析运行日志及运行场景。
3)GBase厂商分析该问题场景,提供短期解决方法及后续修复时间。
2 .数据丢失
2.1.集群中多节点故障,导致集群数据丢失
现象描述
多节点故障,集群数据丢失
现象分析
比较极端的情况下,Gbase数据库多节点故障,导致集群数据丢失,数据无法修复。
应急操作流程
用备份数据进行恢复。
1)通知门通知开放平台和GBase厂商协助排查问题;
2)运行部门停止运行任务。(10分钟)
3)GBase厂商停止数据库服务;
4)GBase厂商从备份介质恢复最近的备份数据;(数据量大小不同,恢复需要的时间差异较大,通常在12-24小时之间)
5)GBase厂商启动服务,校验集群数据一致性;(30分钟)
6)运行部门恢复服务,通知运行部门启动任务。
原文链接:
https://www.gbase.cn/community/post/4022
更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。