目录
一:数据一致性如何保证
1.1 数据不一致性的体现
- 同样的指标来自两张不同的表,结果不一样
- 同样的指标,数据源自同一张表,但是是2个需求,指标口径不统一。
- 同一个指标,命名不一样,导致重复计算。
- 不同的两个指标,命名一样,导致产生误解
1.2 数据一致性的目标
- 从设计,开发,部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联,提供标准数据输出以及建立统一的数据公共层。
1.3 数据一致性思考方向
- 口径一致性(计算口径,可以从结果去做监控)
- 命名一致性(通过指标管理平台来管理)
1.4 数据一致性具体如何保证
1.4.1 统一命名规范
- 词根梳理评审
- 指标评审及指标定义
- 指标命名规范
1.4.2 研发流程规范
开发流程:
- 需求分析调研,明确口径,评估排期,需求正规流程提交
- 指标管理:完善指标命名规范,指标同名同义,指标和业务强相关,明确指标构成要素
- 模型设计:完善开发流程规范,标准化业务调研,知识库文档集中管理,建立模型评审机制。
- ETL开发:ODS,DWD,DWS,DWT,ADS
- 数据验证:制定数据测试标准
- 任务调度:规划化调度参数配置
- 上线管理
清洗规范
- 单位统一,比如金额单位统一为元
- 字段类型统一
- 注释补全
- 空值用默认值或者中位数填充
- 时间字段格式统一
- json数据解析
- 枚举值统一
- 过滤没有意义的数据。
1.4.3 研发工具保障
设计原则
- 指标口径一致性
- 使用便捷性
- 数据处理智能及高性能
- 开发维护高效性
展示
- 指标编码
- 指标名称
- 业务口径
- 指标类型
- 存储的表
- 责任人
- 创建时间
- 状态
1.4.4 指标结果监控
二:数据质量管理
2.1 数据质量管理的定义
数据质量管理是指对数据从计划