大数据必知必会系列_开源组件总结(5):数据治理层

数据治理并不是一个新鲜事,很多企业把它改成了资产管理,其实核心工作都差不多。

正确的数据治理须从数据接入开始,但是很多企业在大数据平台初期对数据治理重视不足,导致后续工作中反复做事后治理或被动治理,往往收效了了。

当前使用较多的数据治理开源组件基本都聚焦在数据血缘、元数据管理、质量监控等一个或几个点上,缺少全面治理组件,而且国内大厂在这一块较少使用开源组件,所以治理方面的开源组件还有很长的路要走。

下面是对当前用的较多的治理组件的总结:

组件名称广泛使用的原因主要功能特点适用场景局限性
Apache Atlas- 在 Hadoop 生态系统中应用广泛,许多企业基于 Hadoop 构建数据平台。
- 强大的元数据管理和数据血缘关系追踪能力。
- 集中的元数据管理,涵盖技术和业务元数据。
- 自动构建数据血缘关系图。
- 支持数据分类与标签。
- Hadoop 生态下的数据治理,如管理 Hive、HBase 等组件的元数据。
- 数据溯源、影响分析场景。
- 对于非 Hadoop 生态的数据集成可能存在一定难度。
- 界面相对不够友好,对新手有一定学习成本。
Apache Griffin- 专注于数据质量监控,大数据环境下数据质量至关重要。
- 良好的可扩展性适应不同规模的数据处理。
- 定义多种数据质量规则(完整性、准确性、一致性等)。
- 生成详细的数据质量报告。
- 与大数据技术集成(Hadoop、Spark 等)。
- 大数据环境下的数据质量监控,如电商、金融行业的大规模数据。
- 数据质量问题排查场景。
- 功能主要集中在数据质量监控方面,缺乏全面的数据治理功能。
- 对于复杂业务逻辑下的数据质量定义可能不够灵活。
Amundsen- 帮助用户发现和探索数据资产,提高数据可访问性。
- 可与多种数据源集成构建数据目录。
- 数据发现与探索的友好界面。
- 构建企业级数据目录整合数据资产。
- 与常见数据仓库和数据湖集成。
- 企业内部数据资产的发现与管理,方便业务人员和分析师查找数据。
- 数据资源整合场景。
- 其默认后端(如 Neo4j)在数据治理功能上存在一定局限性。
- 数据治理功能的深度相对较浅,更多侧重于发现和目录构建。
DataHub- 与多种数据源和工具集成,适应企业复杂数据架构。
- 细粒度的访问控制保障数据安全。
- 全面的元数据管理(技术、业务、操作元数据)。
- 构建数据血缘关系和依赖关系。
- 良好的可扩展性。
- 对分散数据源进行元数据统一管理场景。
- 对数据安全要求较高的企业进行数据访问控制。
- 配置和使用相对复杂,需要一定技术能力。
- 文档可能不够完善,学习和使用存在一定障碍。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值