通过zCloud实现数据库故障的“1-3-5”一站式高效处理

本文介绍如何通过zCloud平台来实现数据库告警问题的发现、定位、处理、回顾。

9e22d2f2cfde883523927daba467fbdb.png

随着金融行业的不断发展,很多企业在资源共享、标准化和自动化等方面有了一定的基础积累,也对运维的方式做出了创新和尝试。上线和投产的运维工具很多,如监控工具、打分画像工具、一键快速检查工具、数据库快速分析平台、故障分析工具等。这些工具的使用在一定程度上提高了运维的效率和质量。

但由于工具众多,往往一个问题的出现,需要通过几个工具来分析和定位,这无形中给DBA和管理人员带来很大的管理复杂度和操作难度,与此同时,处理问题最终还是靠手工命令执行,难以真正做到自动化智能化的运维。这些都会增加问题总体的解决耗时,业务受影响或中断的时间长,连续运行能力差,尤其对金融行业而言,容易带来不好的用户体验和社会影响。

zCloud数据库云管理平台可以实现数据库从“问题发现-问题定位-问题解决”的全栈式处理,帮助运维人员及时把握数据库运行状态,及时发现风险问题,并快速定位,最终通过平台一站式快速问题处理,从而实现“一分钟发现问题,三分钟定位问题,五分钟解决问题”的效果。

下边介绍如何通过zCloud平台来实现数据库告警的”1-3-5“高效处理。

01

发现问题


zCloud的监控大屏可以直观展示数据库的运行状态和情况,如DBA比较关注的数据库在线状态、CPU内存使用趋势、DB Time趋势、表空间容量现状和告警信息。
270f1a45370672ad7547abf5fb56d77e.png
通过监控大屏的最近24小时告警显示,可以看到10:23:05 存在一个告警:Oracle数据库实例P01(192.168.99.32)被阻塞的会话数超过了3个,当前达到了5个。

根据经验判断,阻塞会话如果增多,时间过长的话,会严重影响用户的体验,并可能引发更大的问题,所以此种告警级别相对较高,需要立刻排查处理。

7cf8822d7bab38df46ebb3be023faad6.png

与此同时,DBA也会收到zCloud平台通过各种途径(如邮件、短信等)发来的告警信息,通过平台的告警首页查看告警详情,包含了对象IP定位、严重等级、告警的持续时间、详细描述。

追溯首次告警时间是2020-4-21 10:22:26,并且最近一次告警是10:33:35,已经持续了11分钟!

接下来就可以通过zCloud提供的的实时性能详情来定位分析。

0a968b20ced51573cc5d37fe4a804686.png

02

定位问题

进入zCloud的监控告警模块,定位到P01实例,我们可以看到,实时活动会话数的趋势从10:20左右就开始出现大幅增加,并一直居高不下,并且Application类的等待最多。

框选趋势图中从10:20-10:40这一时间区间,可以下钻出该时间段的TOP SQL和TOP SESSION列表。

SQL ID为apqbtnw2abvju的UPDATE类型SQL占用的Activity%达到了99.64%,一定有问题…

836189b3b1cb838b88f087daab045a20.png

点击该SQL ID可查看关于这条SQL的详情,对SQL文本和执行计划,对象进行分析。

红色标记部分为该条SQL问题所在,可以看到执行计划的操作为TABLE ACCESS FULL全表扫描,对象名为TEST2,等待事件占比很高,CPU开销为125,886,275,IO开销为1377。

SQL性能详情提供了对象信息的统计,能够直观查看TEST2这张表的统计信息,如用户名、数据行数、块大小、索引信息等。

3086a1fd45d26f32a235dae543f8c07c.png

为了能够多维度的分析该告警的情况,我们可以查看活动会话的情况。果然,活动会话的TOP SQL还是它,共4个会话数,占比80%,TOP等待事件的描述为enq:TX -row lock contention

原来是会话阻塞了,这是一个行级锁等待事件!

1d303a35de4e30f51c6e3ba5b68b98b1.png

接下来通过会话阻塞分析的Tab页的查看,可以看到第一行就是阻塞源。

至此,该条告警问题已经迅速定位并分析完毕。

47a24aba033dbaf2bbaa10f88911e5ce.png

03

解决问题

zCloud提供了在平台上一键杀掉会话的功能,DBA可以直接在该条会话后点击“杀掉会话”,迅速解决问题。由于杀会话的操作属于对高危操作,二次确认无误后,确认执行。

1a45566ac32065319c5e3dcfb7095861.png

以上就是zCloud的1-3-5其中一个场景:接收告警信息后,如何快速定位告警问题、还原事件现场,并通过一键杀会话解决。

04

事后回顾

zCloud平台提供了近两年任一时段的历史性能查看,可以选择某区间查看历史TOP SQL以及下钻分析详情。

e0513a5a2dc308ac0113c298edda0fc2.png

同时zCloud还提供了任一时间的AWR报告生成和在线查看功能,轻松备案事件。如选择2020-04-21 10:00-11:00的时段,生成AWR报告,用做事件分析和记录。

2bcfda7cfaa068e9f3d436fc6841aa34.png
967bb41d56765834ab68ed9520b662a5.png
eae81a3683bef691780f65cd5eaa912e.png

zCloud是私有云环境下,帮助大型企业实现数据库资源集中管理和高效率使用、实现数据库运维自动化和智能化的数据库云管理平台,并帮助客户优化资源以降低成本,以及快速交付数据库实现业务快速增长的IT支撑需求。感兴趣的同学可以持续关注应用场景介绍的更新,也可以邮件联系我们:

marketing@enmotech.com。

f5990c1e0f546a86bea79c7a6b5839fa.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值