前言
全量计算开发处理虽然简单,但随着数据量的增加计算资源和时间会倍速增长;在物力人力等成本考量下,引入增量更新进行开发难度和计算资源的平衡。
一、单表增量
前提
- dwd_a事实表的数据来自ods_a
- ods_a增量数据放在最新分区
设计
黄色为历史分区,以创建日期分区存放
绿色为增量数据,根据创建时间可以划分出来的分区
蓝色为合并后的分区
从黄色部分取和绿色划分相同的分区进行数据合并,再动态写回去
伪代码
insert overwrite table bule partition(dt)
select coalesce(green.columns,yellow.columns),coalesce(green.dt,yellow.dt)