第四章:同步策略/存储方式
4.1 数据存储方式概述
首先弄清楚,增量同步,快照同步,增量表,全量表,拉链表之间的关系。
4.2 全量
全量表无分区,每天凌晨流程执行完后,表中的数据是截至到前一天的全部MySQL数据。全量表可能会update数据,即对某条历史数据进行更新,保存最新的那条数据,一般只包含一个文件。如果需要追溯历史数据,需要存快照表进行操作。当然对于某些业务流水数据库只会新增,不会删改,或者我们不太关注历史数据信息,存全量表也没有问题。
4.3 快照表
按天分区,分区字段为partition_date == yyyy-mm-dd.每一天的数据都是截至到那一天的MySQL的全量数据。
快照表对比全量表来说,快照表会有许多重复的数据,优点在于可以利用日期分区追溯历史数据动作。快照表如果根据日期分区创建一个文件,那么文件将会非常之多。