ETL-如何解决数据漂移?

本文介绍了数据漂移的概念,通过实例解释了数据迟到导致的数据漂移问题,并对比了四种不同的处理方法:直接查询业务库、按业务发生时间、入库系统时间和下游同步时间重新组织数据。每种方法的优缺点被详细讨论,旨在确保数据迟到但不产生错误的查询结果。
摘要由CSDN通过智能技术生成

介绍概念

迟到

开会经常遇到有人迟到。例如10:00的会议,有同学10:05才进会。实到时间“10:05”大于应到时间“10:00”,故称之为“迟到”。简称案例1。
同样,数据也常发生迟到情况。如“2022-01-01 23:58”创建的订单,在“2022-01-02 00:01”才记录到数据库的表中。实到时间“2022-01-02 00:01”大于应到时间“2022-01-01 23:58”,故称之为“迟到”。简称案例2。

漂移

下雨天骑电动车是危险的,尤其注意在十字路口不要捏前刹,因为容易发生“漂移”、导致“人摔倒在地、车倒在腿上”等惨况。

待办:补充电动车漂移图,突出说明位置的漂移。

数据漂移

“案例2”中,因为数据迟到,本该存入“日期=1号”分区,实际存入到“日期=2号”分区了。当我们想查询1号的下单用户时,按照常识,在“日期=1号”分区中查询,就会漏查了该订单。
因为“数据迟到”,发生“位置偏移”,带来错误的查询结果,我们称之为“数据漂移”。

**待办** 补充时间线 四类时间字段比较

设定目标

数据可以迟到,但不可引起错误的查询结果。

比较方法

方法0 直接去业务库查询数据

这个方法准确度高、风险大、成本高。
大量使用易引起数据库慢查询、业务响应中断。
少量使用,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值