2024年04月08日腾讯云故障上了热搜,该故障从15:31分开始,影响1个多小时,涉及全球多个区域多款服务。
之前阿里云也出现过类似问题,API和控制台访问不了的情况,历史总是如此的相似,接下来跟大家一起探讨在数据库层面我们该如何规避!
数据库如果出现这种故障该怎么办?
数据库层面出现这种小时级别故障时,仅仅应急救火对业务的损失太大,我们要做的是避免故障,提前将问题识别出来并解决。下面给大家介绍下DBdoctor如何提前发现以及全过程SQL审核规避问题,并及时给出优化建议。
1)上线前识别SQL性能问题,提前规避故障
研发工程师在开发阶段引入的新的SQL语句,在发布上线前很难进行性能评估,发布后容易对线上业务产生影响。业界传统SQL审核工具或产品多基于静态规则,没有考虑到最关键的性能因素,因此上线前的性能评估亟待解决。
DBdoctor通过自研外置Cost优化器,创新性实现了覆盖性能诊断的SQL审核,能够基于线上数据模型,在发布上线前快速、精准评估SQL性能问题,并给出优化建议,提前规避线上故障的发生。
2)线上实时分析,监控SQL是否存在潜在性能问题并给出优化建议
针对线上正在运行的业务SQL,由于表数据量的持续增加,也存在性能隐患,一旦出现将对业务有损,需要提前将带病工作的SQL识别出来,防止出现性能问题导致故障。
DBdoctor具有主动诊断功能,基于异常趋势特征检测和相关性等算法实时主动侦测,识别存在性能问题的SQL并给出优化建议。
3)变更优化后效果检验
优化建议变更后是否能给SQL带来性能提升需要有一个准确的评估工具,仅通过分析几条样本SQL的快慢是不能准确评估性能问题是否全部解决,一旦表发生数据倾斜了,还是会带来性能隐患。
DBdoctor基于审计日志进行同类SQL(指纹SQL)实时聚合分析,统计请求次数、执行耗时分布、平均执行时间、最大耗时、IP来源分布等信息,用户可以全方位看到该类SQL优化后的效果。
DBdoctor免费下载
1️⃣ 下载地址(安装包零依赖,支持一键拉起,耗时一分钟内):https://www.hisensecloud.com/h-col-126.html?statId=9
2️⃣ 公众号:DBdoctor
3️⃣ 在线试用:
https://dbdoctor1.hisensecloud.com
(关注公众号,点击在线试用获取试用环境专属账号密码)
如何部署: