大数据治理开源组件Griffin介绍

最新推荐文章于 2025-05-06 20:46:52 发布

一铭

最新推荐文章于 2025-05-06 20:46:52 发布

阅读量1w

点赞数

分类专栏：大数据处理大数据治理文章标签： Griffin 大数据治理 Griffin原理和介绍 Griffin功能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zg_hover/article/details/89058613

版权

大数据处理同时被 2 个专栏收录

37 篇文章

订阅专栏

大数据治理

2 篇文章

订阅专栏

Griffin是一款开源的大数据质量检测工具，支持批处理和流处理模式。它能够从多个维度评估数据质量，如准确性、合法性、一致性和完整性等。通过定义检测标准并利用Spark执行任务，Griffin帮助提升数据可信度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

大数据发展到今天，对数据质量的要求越来越高，如何保证数据的质量，如何对数据的一致性进行检测？

本文介绍开源的数据治理组件griffin的功能和组成。griffin是国人(ebay工程师)编写的一款数据治理开源软件。

Griffin介绍

Apache Griffin（以下简称Griffin）是一个开源的大数据数据质量解决方案，它支持批处理和流模式两种数据质量检测方式，可以从不同维度（比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等）度量数据资产，从而提升数据的准确度、可信度。

Griffin的抽象架构

从图上可以看出griffin的组成模块：

数据接入有两种方式：一种是历史数据(批量数据)，一种是实时数据。
griffin computing cluster由三部分组成：griffin Measure，data quality defination，Scheduler。
UI&Browser：前端展示界面
Metrics：数据度量展示

Griffin的架构设计

各部分的职责如下：

Define：主要负责定义数据质量统计的维度，比如数据质量统计的时间跨度、统计的目标（源端和目标端的数据数量是否一致，数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等）
Measure：主要负责执行统计任务，生成统计结果
Analyze：主要负责保存与展示统计结果

基于以上功能，我们大数据平台计划引入Griffin作为数据质量解决方案，实现数据一致性检查、空值统计等功能。

Griffin功能分析

从以上介绍可以看出，griffin的数据源可以是hadoop，rdbms，kafka。而抽象架构中的流数据源支持主要是指对kafka的支持，离线数据源主要是指对hadoop的支持。
griffin可以定义对数据的：精确度(Accuracy)，合法性(validity)，一致性(consistency)，时间序列(timeliness)，完整性(completeness)等进行检测。
griffin的检测任务是运行在spark基础上的，也就是说，先定义检测的标准，根据标准生成spark任务。

总结

本文介绍了griffin的功能，架构和模块组成。

注意：目前griffin的版本相对较低，目前的资料相对较少，若要使用到生产环境还需要对其进行深入调研。

参考文献

http://griffin.apache.org/#diagram_page

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。