大数据必知必会系列_开源组件总结（5）：数据治理层

最新推荐文章于 2024-10-10 10:01:22 发布

数据出奇迹

最新推荐文章于 2024-10-10 10:01:22 发布

阅读量417

点赞数 2

文章标签：大数据开源

本文链接：https://blog.csdn.net/weixin_45213556/article/details/142684596

版权

数据治理并不是一个新鲜事，很多企业把它改成了资产管理，其实核心工作都差不多。

正确的数据治理须从数据接入开始，但是很多企业在大数据平台初期对数据治理重视不足，导致后续工作中反复做事后治理或被动治理，往往收效了了。

当前使用较多的数据治理开源组件基本都聚焦在数据血缘、元数据管理、质量监控等一个或几个点上，缺少全面治理组件，而且国内大厂在这一块较少使用开源组件，所以治理方面的开源组件还有很长的路要走。

下面是对当前用的较多的治理组件的总结：

组件名称	广泛使用的原因	主要功能特点	适用场景	局限性
Apache Atlas	- 在 Hadoop 生态系统中应用广泛，许多企业基于 Hadoop 构建数据平台。 - 强大的元数据管理和数据血缘关系追踪能力。	- 集中的元数据管理，涵盖技术和业务元数据。 - 自动构建数据血缘关系图。 - 支持数据分类与标签。	- Hadoop 生态下的数据治理，如管理 Hive、HBase 等组件的元数据。 - 数据溯源、影响分析场景。	- 对于非 Hadoop 生态的数据集成可能存在一定难度。 - 界面相对不够友好，对新手有一定学习成本。
Apache Griffin	- 专注于数据质量监控，大数据环境下数据质量至关重要。 - 良好的可扩展性适应不同规模的数据处理。	- 定义多种数据质量规则（完整性、准确性、一致性等）。 - 生成详细的数据质量报告。 - 与大数据技术集成（Hadoop、Spark 等）。	- 大数据环境下的数据质量监控，如电商、金融行业的大规模数据。 - 数据质量问题排查场景。	- 功能主要集中在数据质量监控方面，缺乏全面的数据治理功能。 - 对于复杂业务逻辑下的数据质量定义可能不够灵活。
Amundsen	- 帮助用户发现和探索数据资产，提高数据可访问性。 - 可与多种数据源集成构建数据目录。	- 数据发现与探索的友好界面。 - 构建企业级数据目录整合数据资产。 - 与常见数据仓库和数据湖集成。	- 企业内部数据资产的发现与管理，方便业务人员和分析师查找数据。 - 数据资源整合场景。	- 其默认后端（如 Neo4j）在数据治理功能上存在一定局限性。 - 数据治理功能的深度相对较浅，更多侧重于发现和目录构建。
DataHub	- 与多种数据源和工具集成，适应企业复杂数据架构。 - 细粒度的访问控制保障数据安全。	- 全面的元数据管理（技术、业务、操作元数据）。 - 构建数据血缘关系和依赖关系。 - 良好的可扩展性。	- 对分散数据源进行元数据统一管理场景。 - 对数据安全要求较高的企业进行数据访问控制。	- 配置和使用相对复杂，需要一定技术能力。 - 文档可能不够完善，学习和使用存在一定障碍。