点击上方蓝色“编了个程”关注我~
每周至少一篇高质量原创技术文章
这是Yasin的第 1 篇原创文章
事故
一个风和日丽的下午,程序员小齐和往常一样,正在写bug。。。
突然接到客服那边的消息,说接到大量用户投诉,页面打不开了。小齐心里一咯噔,最近就自己发布了新代码,加了一个新功能,不会是那部分代码出问题了吧?!!
赶紧切流到备库,回滚代码。然后查看错误日志,发现数据库连接池报了大量的超时错误,这种情况一般有两种可能:
一种是数据库或者连接数据库的网络发生了某种意外,导致数据库连接不上了,达到超时时间了;
另一种可能是有大量线程执行慢查询,老线程还在执行查询,新线程只能陷入等待,等待太久达到超时时间了。
最终定位到是数据库慢查询的问题导致的这个故障。一个高频查询「没有命中索引,导致全表扫描」,单个查询最少就需要一秒多,所以大量查询请求堆积,超时。
复盘
痛定思痛,小齐决定在本地复盘一下这个故障。
首先,来一个极其简单的demo表,再创建一个错误的索引age, score
:
create table demo
(
id int auto_increment
primary key,
name varchar(255) null,
age int null,
score int null
);
create index idx_age_score
on demo (age, score);
开启慢SQL日志:
SET GLOBAL slow_query_log=1;
然后,用pyth