spring定时任务(Scheduled)运行阻塞不执行/Redission分布式锁阻塞问题
最近项目中发现一个bug,排查了很久,最后发现问题所在,在此记录一下。
问题描述:
项目运行一段时间后,cpu突然间飙升,spring的定时任务不执行,同时日志无任何异常信息,整个系统进入假死状态。
问题排查:
1、定时任务为何会阻塞:
- 查看日志发现spring定时任务最后一次执行走了一个Redission分布式锁逻辑,从那以后spring定时任务再无运行,日志上打印的线程名在此后的日志中再无出现过,由此可看出该线程进入了阻塞状态。
- 请教同事发现spring定时任务是单线程执行,如果该线程阻塞的话,其他所有定时任务都会被阻塞。
2、排查该线程为何会阻塞:
- 最后一次执行是一段Redission分布式锁逻辑,猜想是该逻辑出现问题。于是排查有没有死锁问题,经过多次debug,都没办法复现阻塞现象。最后经过仔细观察日志发现,其他线程也有分布式锁逻辑,他们都是加锁成功了,最后解锁的时候都没下文了,而且这些线程在之后的日志也再也没出现过,由此可以看出,问题肯定出现在释放锁的时候。
- 按照以上推断有进行多次dubug,解锁前故意把redis中的锁删除、修改锁中的线程信息等等操作故意制造一些异常现象,均无法复现问题,日志中都能正常打印出异常信息,线程也不会阻塞。最后突发奇想,如果解锁前让服务连不上redis会出现什么情况,按照此猜想解锁前打断点,然后把redis关闭,释放断点,奇怪的现象出现了,线程卡到这不动了,也无任何报错信息,由此可定位出问题就是Redission获取锁后,在解锁前突然与redis丢失连接,该线程就会进入阻塞状态。
总结
1、spring定时任务为单线程,因此在定时任务逻辑中最好让异步线程执行逻辑,防止阻塞主线程。
2、Redission获取锁后,在解锁前突然与redis丢失连接,该线程就会进入阻塞状态。(至于为啥会这样可以参考Redission源码,看看能否避免此情况,比如超时间)
3、排查奇怪的bug不要着急,一步步从源头往下梳理,多分析日志。
4、有资源情况下,最好打印jvm日志,本次就是在客户那没打印jvm,因此排查全靠代码中的日志,太难了…