大数据治理开源组件Griffin介绍

概述

大数据发展到今天,对数据质量的要求越来越高,如何保证数据的质量,如何对数据的一致性进行检测?

本文介绍开源的数据治理组件griffin的功能和组成。griffin是国人(ebay工程师)编写的一款数据治理开源软件。

Griffin介绍

Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。

Griffin的抽象架构

从图上可以看出griffin的组成模块:

  • 数据接入有两种方式:一种是历史数据(批量数据),一种是实时数据。
  • griffin computing cluster由三部分组成:griffin Measure,data quality defination,Scheduler。
  • UI&Browser:前端展示界面
  • Metrics:数据度量展示

Griffin的架构设计

各部分的职责如下:

  • Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)
  • Measure:主要负责执行统计任务,生成统计结果
  • Analyze:主要负责保存与展示统计结果

基于以上功能,我们大数据平台计划引入Griffin作为数据质量解决方案,实现数据一致性检查、空值统计等功能。

Griffin功能分析

  • 从以上介绍可以看出,griffin的数据源可以是hadoop,rdbms,kafka。而抽象架构中的流数据源支持主要是指对kafka的支持,离线数据源主要是指对hadoop的支持。
  • griffin可以定义对数据的:精确度(Accuracy),合法性(validity),一致性(consistency),时间序列(timeliness),完整性(completeness)等进行检测。
  • griffin的检测任务是运行在spark基础上的,也就是说,先定义检测的标准,根据标准生成spark任务。

总结

本文介绍了griffin的功能,架构和模块组成。

注意:目前griffin的版本相对较低,目前的资料相对较少,若要使用到生产环境还需要对其进行深入调研。

参考文献

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值