02-Datahub的功能有什么?

DataHub 是一个现代数据目录,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。

他的核心功能有以下几部分。

搜索与发现

DataHub 的统一搜索功能可以跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果。

数据血缘

通过跟踪跨平台、数据集、ETL/ELT 管道、图表、仪表板等的数据血缘,快速了解数据的端到端全过程。

变更影响分析

使用影响分析主动识别哪些实体可能受到重大变更的影响。

查看元数据功能

结合技术逻辑元数据,提供数据实体的 360° 视图。

生成数据集统计信息以了解数据的形状和分布。

可以结合Great Expectations来实现数据质量。

也支持历史记录来跟踪数据物理结构随时间的变化。

数据治理

  • 通知:当 DataHub 上发生更改时生成通知。例如,当“PII”标签添加到任何数据资产时,向治理团队发送电子邮件。

  • 工作流程集成:将 DataHub 集成到组织的内部工作流程中。例如,当在数据集上提出特定标签或术语时,创建 Jira 票证。

  • 同步:将DataHub 中所做的更改同步到第 3 方系统。例如,将DataHub中添加的Tag反映到Snowflake中。

  • 审核:审核谁在 DataHub 上随时间进行了哪些更改。

权限:快速轻松地将实体所有权分配给用户和用户组。

标签、术语表和域

使数据所有者能够通过以下方式管理其数据实体:

  1. 标签:非正式的、松散控制的标签,用作搜索和发现的工具。没有正式的中央管理。

  2. 词汇表术语:具有可选层次结构的受控词汇表,通常用于描述核心业务概念和度量。

  3. 域:精选的顶级文件夹或类别,广泛用于数据网格中,按部门(即财务、营销)或数据产品组织实体。

创建用户、组和访问

DataHub 管理员可以创建策略来定义谁可以针对哪些资源执行什么操作。创建新策略时,您将能够定义以下内容:

  • 策略类型平台(顶级 DataHub 平台权限,即管理用户、组和策略)或元数据(操作所有权、标签、文档等的能力)

  • 资源类型指定资源类型,例如数据集、仪表板、管道等

  • 权限选择权限集,例如编辑所有者、编辑文档、编辑链接

  • 用户和/或组分配相关用户和组;您还可以将策略分配给资源所有者,无论他们属于哪个组

页面功能

使用 DataHub 用户界面创建、配置、计划和执行批量元数据摄取。通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将元数据导入 DataHub。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据流动

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值