漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

最新推荐文章于 2024-09-01 08:20:45 发布

木东居士

最新推荐文章于 2024-09-01 08:20:45 发布

阅读量6.2w

点赞数 92

分类专栏：大数据漫谈大数据文章标签：数据仓库大数据拉链表

本文链接：https://blog.csdn.net/zhaodedong/article/details/54177686

版权

本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。

最新文章已经迁入公众：木东居士

在这里插入图片描述

全文由下面几个部分组成：

先分享一下拉链表的用途、什么是拉链表。
通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。
举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例）。
分析一下拉链表的优缺点，并对前面的提到的一些内容进行补充说明，比如说拉链表和流水表的区别。

拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。

我们先看一个示例，这就是一张拉链表，存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。

注册日期	用户编号	手机号码	t_start_date	t_end_date
2017-01-01	001	111111	2017-01-01	9999-12-31
2017-01-01	002	222222	2017-01-01	2017-01-01
2017-01-01	002	233333	2017-01-02	9999-12-31
2017-01-01	003	333333	2017-01-01	9999-12-31
2017-01-01	004	444444	2017-01-01	2017-01-01
2017-01-01	004	432432	2017-01-02	2017-01-02
2017-01-01	004	432432	2017-01-03	9999-12-31
2017-01-02	005	555555	2017-01-02	2017-01-02
2017-01-02	005	115115	2017-01-03	9999-12-31
2017-01-03	006	666666	2017-01-03	9999-12-31