数据仓库:如何解决ODS数据零点漂移问题

借的图片
本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移,查看flume+kafka同步数据导致的零点漂移参考该文章:业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)

一、数据零点漂移概念

1、什么是零点漂移:

数据零点漂移指的是数据同步过程中,ODS表按时间字段分区时,同一个业务日期(分区)包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据

由于ODS需要承接面向历史的细节数据查询需求,这就需要物理落地到数据仓库的ODS表按时间段来切分进行分区存储,通常的做法是按某些时间戳字段来切分,而实际上往往由于时间戳字段的准确性问题导致发生数据漂移。

1)这里讲的漂移是指ODS表按照某个字段分区会存在数据漂移现象,如果是全量抽取数据数据会存在该问题吗?全量抽取是否是延迟零点过几分去执行抽取?
2)目前小公司ods数据同步方式都是全量抽取的方式、因为数据量小。

2、为什么会产生数据漂移

数仓ODS采用按时间段分区的方式存储

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值