文章目录
一、数据故障治理建设目标
1.1第一阶段:以故障为中心的稳定性建设
以故障为中心的系统稳定性建设,围绕系统故障的事前、事中、事后系统性落地了一系列的工程能力、流程机制、建设方法论;围绕降发生、降影响,最终故障数和故障时长大大降低。
1.1.1为了做好数据稳定性建设,我们先做了以下几件事
1、制定数据故障定级标准,做数据分级,我们有1000+指标,由于资源有限,不可能面面俱到,制定数据故障定级标准
2、稳定性建设工作需要三方共建(研发、数仓、数据),三方共同服务业务,需要彼此分摊一定的故障比例
1.1.2数据故障最看重什么
答:数据影响总量和数据修复时长,在数据被使用之前完成数据的恢复
1、事前保障:研发在操作数据或做库表变更之前,知晓是否会影响相关ODS和关键指标,进行合理评估后。
2、事中保障:围绕关键库表字段,进行报警完善和精细纬度。在出现问题时,可以最快发现问题、定位问题、并快速介入解决问题。
3、事后保障:有趁手的修复工具,或沉淀了可复用的冗余数据和修复脚本,帮助做数据回溯。
1.1.3数据故障定级标准
首先要做的是数据分级,这样才可以对不同等级的数据提供不同程度的资源保障。
1.2第二阶段:以业务为中心的稳定性建设
以业务为中心的稳定性建设,围绕业务特点,从业务的实际情况出发,成立横向跨组织专项团队,解决业务与技术衔接部分存在的稳定性问题,实现技术对于业务连续性保障的全局最优。
1.3第三阶段:常态化能力建设
常态化能力建设,随着稳定性建设工作的不断深入,组织上对于稳定性团队工作的要求越来越多,已经从单纯的围绕技术稳定性的工作,升级到了覆盖安全合规、降本增效等相关工作内容。为了避免运动式的工作投入,让稳定性工作实现低成本、可持续,会围绕完善自动化工具提效,建设可持续的运营机制,最终塑造团队的稳定性工作文化。