元数据管理Datahub基本介绍和特点

Datahub是一个元数据管理平台,支持多平台元数据同步和搜索,提供血缘关系追踪、数据集统计信息查询、实时治理功能,包括权限管理、通知、审计和工作流集成。此外,它还利用Domains、GlossaryTerms和tags进行数据Entity管理。
摘要由CSDN通过智能技术生成

1. 基本介绍

Datahub是现代数据栈的元数据管理平台。能够从不同的平台(比如mysql、Airflow、Superset)将元数据同步到Datahub。提供统一的元数据搜索和治理,能降低开发人员的数据探索复杂性

2. 功能特色

2.1 支持不同平台的元数据同步和搜索

可以将数据库(mysql等)、数据湖(Iceberg)、BI平台(Superset等)、调度系统(Airflow等)、机器学习特征储存等元数据同步到Datahub。提供一个类似百度一样的搜索功能,对所有平台的元数据进行搜索

搜索

2.2 血缘关系

通过追踪不同平台的元数据血缘关系,能理解数据是如何被转换和流动的。并提供一个可视化的血缘关系图,进行血缘关系展示,还可以点击查看有关实体的详细内容。如果上游的发生变更,可以查看到会影响哪些下游的实体

血缘关系

impact分析

2.3 查询数据集的统计信息

元数据中有一部分是关于一个数据集的统计信息。比如行和列的数量,数据集被查询的次数和哪些用户查询的次数最多;每列当前时间和历史时间的最小值、最大值、空值数量、空值所占比例

查询数据集的统计信息

2.4 实时治理

Datahub的Actions Framework提供如下实时的使用场景:

  • 通知:当在DataHub上进行元数据的更改时,向治理团队发送邮件等形式的通知
  • 审计:审计谁对DataHub进行了哪些更改
  • 工作流集成:将DataHub集成到组织的内部工作流中
  • 同步:将DataHub中的更改同步到第三方系统

2.5 Datahub的权限管理

Datahub可以创建用户组、用户、访问策略(用户或用户组对Entity有哪些操作权限

Entity的权限管理

2.6 使用Domains、Glossary Terms、tags对数据Entity进行管理

  • Domains:通常用于标记该Entity属于哪个部门或团体
  • Glossary Terms:通常用于描述该Entity的核心业务概念
  • tags:给该Entity贴一些自定义的标签,用于Datahub的页面搜索

Domains、Glossary Terms、tags

2.7 在Web界面对元数据进行管理

可以在Web界面创建、配置、执行和调度元数据导入到Datahub

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值