【数仓】数据质量

  今天是 618,年中大促。往年 618、双 11 都会参与,买些东西,今年没有参加的欲望。不知道是不是因为在上海隔离太久了,感觉从冬天隔离到了夏天,觉得衣服、鞋子之类的都没那么必要了,囤点蔬菜、粮食才是真的…听说京东的暑期实习生都变成了日常实习生,618 之后开始裁员,不知道真的假的,经济不行了,互联网也不景气。

  上面都是题外话。之前找实习,二面被问了一个问题:数据质量了解吗?当时没有答出来。现在接触了实际工作,发现有专门的数据质量管理平台,大概就是对数据、任务从各种角度进行监测,今天大概说一下。

1.定义

数据质量管理是对数据产生、加工、消费的整个数据生命周期的质量管控,具体的维度包括:

  • 准确性
  • 完整性
  • 一致性
  • 及时性
  • 有效性
  • 唯一性

数据生产阶段:由于系统异常或系统流程等问题,导致的数据缺失或数据的不准确。

数据加工和消费阶段:加工过程中,数据抽取完整性能否与系统产生的数据保持一致、数据产出是否及时等质量问题。

2.目标

针对数仓体系中的表建立一套质量评估体系,从数据的完整性、准确性、⼀致性、有效性、及时性、唯一性等维度进行评价,去引导对数表的建设和对数表准确性进行合理评估。

3.实施

简单来说就是通过一系列规则,从全链路、多角度去监测一些指标,形成质量报告,对质量进行评价。这里举一些需要监控的指标的例子:

  • 表:主键、数据量(行数、占用磁盘大小);
  • 字段:空值行数的占比、重复行数、固定值行数、枚举个数、枚举范围、长度;
  • SLA:对外承诺的最晚产出时间(任务延迟时报警);

每周要进行复盘,对事故、破线、报警个数、报警率、起夜次数进行记录,分析原因,对任务进行优化。

欢迎点击此处关注公众号。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数仓数据的准确性可以通过以下方式来保证: 1. 数据仓库的设计和维护人员要有足够的专业知识,对业务流程和数据处理流程有深刻的理解和把握; 2. 在数据抽取和转换过程中,要进行严格的数据验证和清洗,以确保数据的准确性; 3. 使用合适的数据质量工具或机制进行数据质量评估和监控,及时发现和解决数据的问题; 4. 引入数据仓库的使用规范和标准,保证数据的维度、内容和精度的一致性; 5. 建立数据仓库的审计和监督体系,保证数据的隔离性和安全性。 ### 回答2: 保证数仓数据的准确性是数仓管理中一个非常重要的问题。以下是一些方法和措施来保证数仓数据的准确性: 1. 数据源的选择和验证:选择可靠、稳定的数据源,并且对数据源进行详细的验证,确保数据的完整性和正确性。 2. 数据清洗和转换:对原始数据进行清洗和转换的过程中,采用严格的规则和算法,去除重复、空值和异常数据,确保数据质量。 3. 数据校验和验证:在数据仓库中建立数据校验机制,通过检查数据的完整性和一致性来验证数据的准确性。可以运用一些算法和技术,如校验和、数据字典、数据关联、数据键匹配等。 4. 数据审计和监控:定期进行数据审计和监控,检查数据的来源、变动和使用情况,及时发现和纠正数据错误和异常。 5. 数据质量管理:建立数据质量管理系统,包括数据质量评估和监控指标,建立数据质量评估和监控流程,及时发现和纠正数据质量问题。 6. 数据访问和权限控制:建立严格的数据访问和权限控制机制,对数据进行防篡改和防泄漏的管理,确保数据的安全和准确性。 7. 数据仓库维护和优化:定期对数据仓库进行维护和优化,包括数据清理、索引优化、性能优化等,提高数据仓库的效率和准确性。 总结起来,保证数仓数据的准确性需要从数据源的选择、数据清洗和验证、数据校验和验证、数据审计和监控、数据质量管理、数据访问和权限控制以及数据仓库的维护和优化等方面综合考虑,采取一系列措施和方法,以保证数据质量和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值