xxl-job在k8s中日志丢失的问题
一、背景
由于业务需求,公司大量的用到了xxl-job这个分布式任务调度框架,这边所有的服务都是k8s进行部署的,最近又有对于任务调度中心发生了生产事故,又去补充了监控报警等功能,然而在进行问题排查的时候,发现了一个比较奇怪的现象,其实之前也是一直有的,不过可能没有引起太多的关注,就是执行器的执行日志丢失的问题。
二、问题描述
这个问题也是比较的奇怪,初步的一个现象就是,在固定时间点以后的所有执行日志全部丢失,不仅仅是一个任务,而是这个执行器上的所有任务,在一个时间点之前的日志全部丢失,并且所有执行器都有这个问题。
看到这个问题,第一反应应该是可能配置了日志自动清除的功能,但是实际上每次去看,每个执行器每次日志丢失的时间都不一样,可能也就最近几天的执行器日志可以访问到,然后上apollo上看了一下配置,确定xxl.job.executor.logretentiondays = -1 ,说明日志是不会自动清理,永久保存的,说明了并不是这个问题。
由于初步判断,已经确定了不是由于配置导致的执行器日志自动删除的问题,所以只能从别的方面找原因。
三、先看看xxl-job获取日志的流程图
获取调度日志:
直接通过调度中心访问存储在