【数仓】元数据概述

  今天学习第 12 章元数据概述。关注公众号回复 802 获取 pdf。

1.元数据概述
1.1 元数据定义

定义:

  • 元数据是关于数据的数据。
  • 元数据打通了源数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。
  • 元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态即 ETL 的任务运行状态。
  • 帮助开发人员方便找到数据仓库中他们所关心的数据,提高效率。

分类:

  • 技术元数据:存储技术细节
    • 分布式计算系统存储元数据
    • 分布式计算系统存储元数据
    • 数据开发平台中数据同步、计算任务,任务调度等信息
    • 数据质量和运维相关元数据
  • 业务元数据:从业务角度描述数仓中的数据,提供介于使用者和实际系统之间的语义层,使不懂技术的业务人员也能读懂数仓中的数据。
1.2 元数据价值
  • 数据管理、数据内容、数据应用的基础
  • 数据管理方便提供数据支持
  • 数据内容方面提供数据素材
  • 数据应用方面打通产品及应用链路
1.3 统一元数据体系建设

在这里插入图片描述

2.元数据应用
2.1 Data Profile

元数据画像,为数据建立血缘图谱。分四种:

  • 基础标签
  • 数仓标签
  • 业务标签
  • 潜在标签

在这里插入图片描述

2.2 应用链路分析

根据日志和任务依赖进行解析,产生表级血缘、字段血缘、表的应用血缘。

常用的应用链路分析主要有影响分析、重要性分析、下线分析、链路分析、寻根溯源、故障排查。

2.3 数据建模

根据下游使用情况,通过下游的元数据驱动数仓建模,可以提高效率,更加准确。所使用的元数据主要有:

  • 表的基础元数据,包括下游使用情况、查询次数、关联次数、聚合次数、产出时间。
  • 表的关联关系元数据:包括关联表、关联类型、关联字段、关联次数。
  • 表的字段的基础元数据:包括字段名称、字段注释、查询次数、关联次数、聚合次数、过滤次数。

欢迎关注。每天分享大数据开发面经和技术。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值