hive拉链表方案一
这篇文章简单说了一下第一种hive拉链表方案,下面简单说一下其他不同数据文件的拉链实现方案
1.上游每天下发的数据同步类型
1.每日全量数据
此方式每天存一份切片即可,无需拉链处理。
2.每日下发增量数据,且只有增量数据
此方式将每天的增量数据放入对应的dt分区中即可,无需拉链。
3.每天下发增量数据,存在增删改三种操作
此方式,每行数据后多一个标识位,用于区分三种操作,需要拉链。
4.每天下发增量数据,存在增改两种操作
此方式,每行数据后多一个标识位,用于区分两种操作,需要拉链。