大数据--数据仓库--数据同步方式

本文介绍了大数据同步中的四种主要数据存储方式:全量表、快照表、增量表和拉链表,详细阐述了它们的定义、适用场景及优缺点。拉链表在处理频繁更新但变化不大的数据时尤为适用,但存在错误数据难以修复的问题。
摘要由CSDN通过智能技术生成

第四章:同步策略/存储方式

4.1 数据存储方式概述

        首先弄清楚,增量同步,快照同步,增量表,全量表,拉链表之间的关系。

 

4.2 全量

        全量表无分区,每天凌晨流程执行完后,表中的数据是截至到前一天的全部MySQL数据。全量表可能会update数据,即对某条历史数据进行更新,保存最新的那条数据,一般只包含一个文件。如果需要追溯历史数据,需要存快照表进行操作。当然对于某些业务流水数据库只会新增,不会删改,或者我们不太关注历史数据信息,存全量表也没有问题。

4.3 快照表

        按天分区,分区字段为partition_date == yyyy-mm-dd.每一天的数据都是截至到那一天的MySQL的全量数据。

        快照表对比全量表来说,快照表会有许多重复的数据,优点在于可以利用日期分区追溯历史数据动作。快照表如果根据日期分区创建一个文件,那么文件将会非常之多。

4.4 增量表

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值