故障应急处理(四) - 其他异常

原文链接:
https://www.gbase.cn/community/post/4025
更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。

1.1 数据不一致错误

现象描述

集群节点出现数据不一致报警

现象分析

某个节点网络闪断的情况下,会出现数据不一致的情况,通常会在网络恢复之后自动进行数据同步。如果长时间处于数据不一致状态,则需要手工同步数据。

应急操作流程

在网络恢复的情况下,数据不一致的节点会自动恢复,检查网络情况,如果网络恢复后一个小时数据依然不同步,考虑进行手工同步过程。

1)运行部门通知开放平台和GBase厂商协助排查问题
2)临时表加载个别报警可以等待10分钟,集群自动同步成功,则问题正常结束,否则需要GBase现场支持判断是否需要停止集群服务,停止运行任务,执行3-6步操作。(取决于当时任务的大小,通常在1小时-4小时之间)
3)GBase停止数据库服务(20分钟)
4)GBase厂商分析数据不一致的表,进行手工同步 (根据表大小和不一致的表的数量,时间通常在2-8小时之间)
5)GBase厂商启动数据库服务,校验数据一致性(30分钟)
6)GBase通知运行部门,系统恢复,启动任务运行。

1.2.数据错误

现象描述

某SQL语句执行结果集错误。

现象分析

由GBase数据库执行计划bug导致SQL语句结果集错误。

应急操作流程

如发现此类问题,需应用配合分析目前系统受到的影响范围及考虑后续修复方法。

1)运行部门通知开放平台和GBase厂商协助排查问题;
2)GBase厂商分析定位问题,给出详细原因说明及修复方案、规避方法;
3)应用部门依据厂商说明,分析影响范围,排查影响范围;
4)运行部门和GBase厂商修复错误数据,并修改程序规避问题。
5)GBase厂商提供修复问题版本。

1.3 执行报错

现象描述

某SQL语句执行报错。

现象分析

由GBase数据库bug导致SQL语句执行报错。

应急操作流程

如发现此类问题,需责成厂商分析该bug原因,并提供解决期限。
1)通知门通知开放平台和GBase厂商协助排查问题;
2)Gbase厂商分析并提供规避方案。
3)应用部门依据厂商说明,进行问题规避;
4)GBase厂商提供修复问题版本。

1.4 并发过高导致的数据库节点负载过高问题

判断并发过高主要表现在以下几个方面:

(1)系统CPU使用平均超过90%。
(2)磁盘IO接近饱和。
(3)通过show processlist查看发现并发过高,且有1~3个超长任务(超过或接近1小时)。

解决方法:

1)降低调度系统并发数
2)调整长作业与短作业并发顺序,长作业与短作业均匀运行,避免长作业集中运行

原文链接:
https://www.gbase.cn/community/post/4025
更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值