Griffin
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
Apache Griffin - 数据质量监控工具
一、概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在不断增加,在这种情况下,一个可配置、可视化、可监控的数据质量工具就显得尤为重要了。Griffin 数据质量监原创 2020-11-21 08:23:59 · 2164 阅读 · 0 评论 -
Apache Griffin入门指南
一、前言数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。在Griffin的架构中,主要分为Define、Measure和Analyze三个部分,如下图所示:各部分的职责如下:Define:主要负责定义数据质量统计的维.原创 2020-11-20 18:33:54 · 1740 阅读 · 1 评论