简介: ods层数据同步时经常会遇到增全量合并的模型,即T-1天增量表 + T-2全量表 = T-1全量表。可以通过full outer join脚本来完成合并,但是数据量很大时非常消耗资源。本文将为您介绍在做增量数据的增加、更新时如何通过full outer join改写left anti join来实现的最佳实践。
背景
ods层数据同步时经常会遇到增全量合并的模型,即T-1天增量表 + T-2全量表 = T-1全量表
。可以通过full outer join脚本来完成合并,但是数据量很大时非常消耗资源。
insert overwrite table tb_test partition(ds='${bizdate}')
select case when a.id is not null then a.id esle b.id end as id
,if(a.name is not null, a.name, b.name) as name
,coalesce(a.age, b.age) as age
--这3种写法一样,都是优先取delta表的字段
from
(
select * from tb_test_delta where ds='${bizdate}'
) a
full outer join
(
select * from tb_test where ds='${bizdate-1}'
) b
on a.id =b.id;
这种写法可实现新增和更新操作:
- 新增是指增量表中新出现的数据,而全量表中没有;
- 更新是指增量表和全量表中都有的数据,但优先取增量表的数据,覆盖历史表的数据。
如下图所示,R2_1是增量表当天去重后增量数据,M3是全量表前一天的数据,而J4_2_3则是full outer join的执行图。
将J4_2_3展开会发现里面将增量和全量进行了merge join,当数据量很大(1288亿条)时会产生很大的shuffle开销。此时优化方案就是将full