首先跟大家说一声抱歉,由于前段时间比较忙,一直没有时间产出原创干货,一直是在转载其他公众号的文章,对此我也做了深刻的检讨,感觉辜负了大家的厚望.之后我还是会持续产出干货的,希望各位大佬一如既往的支持!!!
1 什么是数据部门值班制度
值班制度就是每个数据开发人员轮流负责晚上的任务运行状况,有异常或延迟及时处理或者通知相关负责人及时处理,避免第二天数据延迟产出.
2每家有数据部门的公司都有值班制度吗
据我所知,并不是这样的,很多做工具型产品的公司并不需要值班,因为数据不需要产出给用户,只是自己内部做一些分析使用,即使晚上任务延迟甚至报错,白天处理也是没有任何影响的.
但是很多有自己业务的公司一般是会有值班制度的,主要还是为了任务及时产出.一般来说,最佳周期为一人轮流值班一周
3任务异常告警及处理方式
目前主流的告警方式无非就是短信,邮件和电话,当任务有延迟或者有报错的情况下,优先级比较低的任务是会发短信和发邮件的,但是并不会打电话告警,这意味着当晚不出了也问题不大,因为不是重要任务
但是优先级比较高的任务还是会有电话告警的,这个时候你就得打开电脑看一下是哪个任务报错,以及看一下相关的报错信息,然后看一下自己能不能过处理,如果能够处理的话就自己处理掉,不能处理的话就电话联系相应负责人.
由于整个任务涉及到的团队非常多,包括数仓,运维,平台开发及调度系统,所以这个时候值班人员需要有这个最基本的问题定位能力,要不然都不知道该找谁处理了
4责任划分
如果第二天数据延迟,导致运营或者数据分析师不能及时取数,是比较严重的事情.需要有一个明确的责任划分的,需要追溯到哪个团队哪个人及故障等级,这样大家才不会掉以轻心.
5体会
-
不要完全信任告警系统,告警系统也有凉凉的时候,所以晚上应该还需要定1-2个闹钟,定时起床看一下任务运行情况,这是对自己负责,也是对数据负责,要不然出了问题,你是跑不掉的.
-
值班很累,上周刚值完班,黑眼圈也加重了!!!
-
但是这目前来说值班制度又是无法避免的,所以还是得努力做好!!!