背景介绍
上周帮同学排查了一个问题,在一行向数据库中插入一条数据库的记录时会稳定地出现事务超时的问题。ERROR 1205 (HY000): Lock wait timeout exceeded; try restarting transaction
。但这个表是新建的,此前也没有任何代码会访问这张表,因此出现等待锁的情况非常奇怪。
问题分析
通过SELECT * FROM INFORMATION_SCHEMA.INNODB_LOCKS;
分析,发现是外键导致的等待锁超时。在项目中有任务和子任务的概念,分别存放在任务表和子任务表中。服务A将一条任务的status字段设置为运行中,然后调用服务B创建一个子任务,子任务中的taskId字段为和他关联的任务Id。当服务A更新任务status字段时因为有索引,给一条记录上了X锁,当服务B准备插入子任务记录时,因为数据库有外键约束,会先尝试给任务表加上S锁。因为服务A调用服务B的代码是在事务里的,此时X锁还没有释放,因此服务B事务加S锁的动作会一直等待,直到超过了超时时间。
总结
这个问题实际上是整个项目没有正确处理微服务事务的一个缩影,可以看出,在整个项目没有作出合理的设计,开发团队又没有足够经验的情况下,选用微服务的架构会产生非常多的问题,还是要根据实际情况选择恰当的技术。为了解决这类问题,分布式事务有非常多的资料可以参考,因为还没有实践的经历,就先不展开了。