大数据--数据仓库3--数据质量/元数据/数据治理

目录

一:数据一致性如何保证

1.1 数据不一致性的体现

1.2 数据一致性的目标

1.3 数据一致性思考方向

1.4 数据一致性具体如何保证

1.4.1 统一命名规范

1.4.2 研发流程规范

1.4.3 研发工具保障

1.4.4 指标结果监控

二:数据质量管理

2.1 数据质量管理的定义

2.2 数据质量实施流程

2.3 数据质量管理总结

三:元数据管理

3.1 元数据的定义

3.2 元数据分类

3.3 元数据价值

3.4 元数据应用

四:数据治理


一:数据一致性如何保证

1.1 数据不一致性的体现

  • 同样的指标来自两张不同的表,结果不一样
  • 同样的指标,数据源自同一张表,但是是2个需求,指标口径不统一。
  • 同一个指标,命名不一样,导致重复计算。
  • 不同的两个指标,命名一样,导致产生误解

1.2 数据一致性的目标

  • 从设计,开发,部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联,提供标准数据输出以及建立统一的数据公共层。

1.3 数据一致性思考方向

  • 口径一致性(计算口径,可以从结果去做监控)
  • 命名一致性(通过指标管理平台来管理)

1.4 数据一致性具体如何保证

1.4.1 统一命名规范

  • 词根梳理评审
  • 指标评审及指标定义
  • 指标命名规范

1.4.2 研发流程规范

开发流程:

  • 需求分析调研,明确口径,评估排期,需求正规流程提交
  • 指标管理:完善指标命名规范,指标同名同义,指标和业务强相关,明确指标构成要素
  • 模型设计:完善开发流程规范,标准化业务调研,知识库文档集中管理,建立模型评审机制。
  • ETL开发:ODS,DWD,DWS,DWT,ADS
  • 数据验证:制定数据测试标准
  • 任务调度:规划化调度参数配置
  • 上线管理

清洗规范

  • 单位统一,比如金额单位统一为元
  • 字段类型统一
  • 注释补全
  • 空值用默认值或者中位数填充
  • 时间字段格式统一
  • json数据解析
  • 枚举值统一
  • 过滤没有意义的数据。

1.4.3 研发工具保障

设计原则

  • 指标口径一致性
  • 使用便捷性
  • 数据处理智能及高性能
  • 开发维护高效性

展示

  • 指标编码
  • 指标名称
  • 业务口径
  • 指标类型
  • 存储的表
  • 责任人
  • 创建时间
  • 状态

1.4.4 指标结果监控

二:数据质量管理

2.1 数据质量管理的定义

        数据质量管理是指对数据从计划

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值