DataHub 是一个现代数据目录,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。
他的核心功能有以下几部分。
搜索与发现
DataHub 的统一搜索功能可以跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果。
数据血缘
通过跟踪跨平台、数据集、ETL/ELT 管道、图表、仪表板等的数据血缘,快速了解数据的端到端全过程。
变更影响分析
使用影响分析主动识别哪些实体可能受到重大变更的影响。
查看元数据功能
结合技术和逻辑元数据,提供数据实体的 360° 视图。
生成数据集统计信息以了解数据的形状和分布。
可以结合Great Expectations来实现数据质量。
也支持历史记录来跟踪数据物理结构随时间的变化。
数据治理
-
通知:当 DataHub 上发生更改时生成通知。例如,当“PII”标签添加到任何数据资产时,向治理团队发送电子邮件。
-
工作流程集成:将 DataHub 集成到组织的内部工作流程中。例如,当在数据集上提出特定标签或术语时,创建 Jira 票证。
-
同步:将DataHub 中所做的更改同步到第 3 方系统。例如,将DataHub中添加的Tag反映到Snowflake中。
-
审核:审核谁在 DataHub 上随时间进行了哪些更改。
权限:快速轻松地将实体所有权分配给用户和用户组。
标签、术语表和域
使数据所有者能够通过以下方式管理其数据实体:
-
标签:非正式的、松散控制的标签,用作搜索和发现的工具。没有正式的中央管理。
-
词汇表术语:具有可选层次结构的受控词汇表,通常用于描述核心业务概念和度量。
-
域:精选的顶级文件夹或类别,广泛用于数据网格中,按部门(即财务、营销)或数据产品组织实体。
创建用户、组和访问
DataHub 管理员可以创建策略来定义谁可以针对哪些资源执行什么操作。创建新策略时,您将能够定义以下内容:
-
策略类型平台(顶级 DataHub 平台权限,即管理用户、组和策略)或元数据(操作所有权、标签、文档等的能力)
-
资源类型指定资源类型,例如数据集、仪表板、管道等
-
权限选择权限集,例如编辑所有者、编辑文档、编辑链接
-
用户和/或组分配相关用户和组;您还可以将策略分配给资源所有者,无论他们属于哪个组
页面功能
使用 DataHub 用户界面创建、配置、计划和执行批量元数据摄取。通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将元数据导入 DataHub。