记一次azkaban调度异常处理

一、背景

        预发布环境使用的数据库性能比较低,根据业务测试的需求,需要将数据库更换成 稳定高性能的数据库。更换业务数据库后azkaban定时任务失败

二、数据库服务信息

        说明:该部分使用代号来代替,非真实信息

  1. 该数据库存储了azkaban 运行的数据库 : azkaban
  2. 该数据存储了预发布环境业务测试数据 :  test
  3. 就数据库地址:192.168.1.110
  4. 新数据库地址:192.168.1.142

三、azkaban定时任务失败问题分析

  1、web查看定时任务失败日志

        业务相关的任务都失败,自己创建的任务执行成功;业务调度工作报错:没有获取到资源对象

 2、在服务器分析定时任务日志

            azkaban web和exec执行都没有发现异常的报错。只有回调失败的关键字眼。无法定位问题所在。

3、深入排查分析

        a、检查azkaban 执行器和web 数据库相关配置文件: azkaban.properties ,然而数据库信息都是 正确的。

        b、在azkaban 创建简单的 job测试,能成功执行。

 4、疑点

        a、azkaban依赖的azkaban数据库连接信息正常,并且通过创建的测试 job 可以推测 azkaban 服务是正常的。

        b、突然有个疑问,有没有可能迁移数据库,业务相关的测试库的接口没更改完全?深思和继续排查,这个可能已被排除,azkaban数据库核对了遍都没有发现可以的地方,该更改的地方都改完成了。

        c、曾经有过怀疑azkaban容器内存限制,以及azkaban配置文件里面对内存的配置;azkaban配置里面默认小于6GB 就不会调度到该节点的,但这个问题再次确认配置,早已解除了azkaban最小6GB内存配置的限制了。该疑问也排除了。

        d、有没有可能是业务的问题呢?跟azkaban本身没有关系呢?azkaban容器是我亲手构建交付给开发人员调整的,azkaban本身配置都核对了遍了,突然灵机一闪,有没有可能是 有相关的配置藏在azkab某个角落呢? 毕竟构建azkaban基础镜像时候,创建按照开发的要求,创建一个跟业务有关,并存放有我们自己开发的代码,那么有没有可能在这个目录里面隐藏了和业务有关的配置呢?

5、经过 重重的疑点思考,决定登录azkab容器再好好核对一番。刚好发现业务目录隐藏了连接业务数据库的配置没有更改过来。没想好开发把业务配置直接打包到镜像里面了。

 三、问题复盘

        1、azkaban基础镜像是我按照开发负责人的需求出方案并且构建的,azkaban本身用到的数据库配置和应用配置等都是通过configMap方式挂载的。

        2、没想到开发他们把跟业务有关的配置,如业务数据库连接信息等配置文件直接打包到镜像里面了。我们环境是基于CICD,一键把源码打包成应用,基于基础镜像构建迭代的镜像,然后发布到k8s环境,完成应用迭代部署。

        3、开发也没有告知我业务配置打包在镜像面了,让我产生了误解,一直以为除了azkaban本身的配置没有其他配置了。

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值