本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移,查看flume+kafka同步数据导致的零点漂移参考该文章:业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)
一、数据零点漂移概念
1、什么是零点漂移:
数据零点漂移指的是数据同步过程中,ODS表按时间字段分区时,同一个业务日期(分区)
包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据。
由于ODS需要承接面向历史的细节数据查询需求,这就需要物理落地到数据仓库的ODS表按时间段来切分进行分区存储,通常的做法是按某些时间戳字段来切分,而实际上往往由于时间戳字段的准确性问题导致发生数据漂移。
1)这里讲的漂移是指ODS表按照某个字段分区会存在数据漂移现象,如果是全量抽取数据数据会存在该问题吗?全量抽取是否是延迟零点过几分去执行抽取?
2)目前小公司ods数据同步方式都是全量抽取的方式、因为数据量小。
2、为什么会产生数据漂移
当数仓ODS采用按时间段分区的方式存储