浅谈元数据管理之Atlas和Metacat

最新推荐文章于 2024-09-13 22:19:03 发布

suifengerqu1990

最新推荐文章于 2024-09-13 22:19:03 发布

阅读量1w

点赞数 7

分类专栏：元数据管理文章标签：大数据

本文链接：https://blog.csdn.net/zhaoshengli1990/article/details/106372975

版权

本文介绍了Apache Atlas和Netflix Metacat两大元数据管理工具，重点探讨了它们在元数据管理、血统采集、数据生命周期可视化、数据安全等方面的特点和差异。Atlas提供统一的元数据标准和丰富的API，而Metacat专注于数据发现和互操作性，两者都致力于优化大数据治理和数据资产管理。

摘要由CSDN通过智能技术生成

关键字：元数据管理、血统采集、血统生命周期、图数据库、数据地图

元数据管理概述

元数据是描述数据的数据（data about data），是指从信息资源中抽取出来用于描述其特征与内容的数据，从一般意义上来讲，元数据是指数据的类型、名称、和值等；在关系型数据库中，常常指数据表的属性、取值范围、数据来源，以及数据之间的关系等。
元数据的管理有着十分重要的作用，它能够为数据用户提供完整的数据定义信息，减少数据冗余，有利于识别与查找数据。同时，能够追踪数据在数据库中发生的任何变化，帮助用户理解数据在整个血统生命周期的来龙去脉，实现简单高效地管理大数据系统中的海量数据，并且通过数据资源的有效追踪、发现、查找来挖掘大数据系统中数据的价值。
在大数据治理活动中，元数据与元数据管理有以下要点。
（1）数据管理
数据管理要求能够追踪数据的整个生命周期，包括数据的来源、数据的修改与删除，并能够支持快速的检索。
（2）元数据建模
元数据建模通过结合标签与数据属性的方式来更好地理解数据及生命周期，从而实现对元数据的快速建模。
（3）易于交互的解决方案
通过建立统一的、贯穿Hadoop生态系统的元数据库，定义统一的元数据标准，为系统中不同组件的元数据信息进行交互提供基础。

元数据管理工具Apache Atlas

Apache Atlas是一个可伸缩和可扩展的元数据管理工具与大数据治理服务，其设计的目的是为了与其他大数据系统组件交换元数据，改变以往标准各异、各自为战的元数据管理方式，构建统一的元数据库与元数据定义标准，并且与Hadoop生态系统中各类组件相集成，建立统一、高效且可扩展的元数据管理平台。
对于需要元数据驱动的企业级Hadoop系统来说，Apache Atlas提供了可扩展的管理方式，并且能够十分方便的支持对新的商业流程和数据资产进行建模。其内置的系统类型（Type System）允许Atlas与Hadoop大数据生态系统之内或之外的各种大数据组件进行元数据交换，这使得建立与平台无关的大数据管理系统成为可能。同时，面对不同系统之间的差异以及需求的一致性问题，Atlas都提供了十分有效的解决方案。
Atlas能够在满足企业对Hadoop生态系统的预设要求的条件下，高效地与企业的平台的所有生态系统组件进行集成。同时，Atlas可以应用预先设定的模型在Hadoop中实现数据的可视化，提供易于操作的审计功能，并通过数据血统查询来丰富企业的各类商业元数据。它也能够让任何元数据消费者与其相互协作而不需要在两者之间构建分离的接口。另外，Atlas中的元数据的准确性和安全性由Apache Ranger来保证，Ranger能够在运行时阻止那些不具备权限的数据访问请求。

Apache Atlas提供的大数据治理的核心治理服务

1、元数据交换：允许从当前的组件导入已存在的元数据或模型到Atlas中，也允许导出元数据到下游系统中。
2、数据血统采集：Atlas在平台层次上，针对Hadoop组件抓取数据血统信息，并根据数据血统间的关系构建数据的血统生命周期。
3、数据血统生命周期可视化：通过Web服务将数据血统生命周期以可视化的方式展现给客户。
4、快速数据建模：Atlas内置的类型系统允许通过继承已有类型的方式来自定义元数据结构，以满足新的商业场景的需求。
5、丰富的API：提供了目前比较流行且灵活的方式，能够对Atlas服务、HDP组件、UI及外部组件及外部组件进行访问。

Apache Atlas的主要特性

1、数据分类
（1）Atlas提供了导入或定义数据注释的功能，这些数据注释可以根据具体的商业业务分类来定义。通过这些分类后的数据注释，可以实现数据分类的功能。
（2）Atlas提供了定义、添加注释以及自动获取数据集与基础元素之间关系的功能，这些基础元素包括数据源、数据目标及其衍生的过程。
（3）向第三方系统导出元数据。
2、集中审计
（1）对于每一个访问数据的应用以及交互过程，Atlas会抓取其安全访问信息。
（2）对于每一个执行的操作活动及其具体步骤，Atlas能够将这些操作信息抓取下来。
3、搜索与数据血统
（1）在Atlas中，用户可以预先定义访问路径，并通过这些路径来浏览数据分类与数据审计的信息。
（2）用户利用Atlas全文搜索这一特性，可以快速与准确地定位相关数据及审计事件。
（3）可视化的数据血统允许用户深入挖掘数据具体的来源、操作方式以及安全策略等整个数据血统生命周期中的各类信息。
4、安全与策略引擎
（1）基于数据分类的计划、属性和角色，Atlas使得数据管理策略间的关系更加合理化。
（2）通过数据分类，Atlas也支持自定义策略以防止数据不适当的衍生
（3）通过数据表项中的值或者属性，Atlas支持对数据表中的列或者行添加标签。