拉链表

最新推荐文章于 2024-11-10 15:43:29 发布

星陈

最新推荐文章于 2024-11-10 15:43:29 发布

阅读量154

点赞数

分类专栏：大数据开发文章标签： hadoop

原文链接：https://blog.csdn.net/xiepeifeng/article/details/42431027

版权

2 篇文章 0 订阅

订阅专栏

原文地址：https://blog.csdn.net/xiepeifeng/article/details/42431027

在数据仓库的数据模型设计过程中，经常会遇到这样的需求：

拉链历史表，既能满足反应数据的历史状态，又可以最大程度的节省存储;

举个简单例子，比如有一张订单表,6月20号有3条记录：

到6月21日，表中有5条记录：

到6月22日，表中有6条记录：

数据仓库中对该表的保留方法：

如果在数据仓库中设计成历史拉链表保存该表，则会有下面这样一张表：

说明：

dw_begin_date表示该条记录的生命周期开始时间，dw_end_date表示该条记录的生命周期结束时间；
dw_end_date = '9999-12-31’表示该条记录目前处于有效状态；
如果查询当前所有有效的记录，则select * from order_his where dw_end_date = ‘9999-12-31’
如果查询2012-06-21的历史快照，则select * from order_his where dw_begin_date <= ‘2012-06-21’ and end_date >= ‘2012-06-21’，这条语句会查询到以下记录：

和源表在6月21日的记录完全一致：

可以看出，这样的历史拉链表，既能满足对历史数据的需求，又能很大程度的节省存储资源；

点赞 5
收藏
分享
站内首发文章

白杨Shayne
发布了4 篇原创文章 · 获赞 13 · 访问量 4万+
私信
关注