wzy0623的专栏

数据库、数据仓库、大数据

维度模型数据仓库(二十一) —— 分段维度

(五)进阶技术         16. 分段维度         本篇说明分段维度的实现技术。分段维度包含连续值的分段。例如,年度销售订单分段维度可能包含有叫做“低”、“中”、“高”的三档;各档定义分别为0.01到15000、15000.01到30000.00、30000.01到99999999....

2015-11-25 17:31:43

阅读数 2070

评论数 0

维度模型数据仓库(二十) —— 累积的度量

(五)进阶技术         15. 累积的度量         本篇说明如何实现累积月底金额,并对数据仓库模式和初始装载、定期装载脚本做相应地修改。累积度量是半可加的,而且它的初始装载比前面做的要复杂的多。         可加、半可加、不可加事实         事实表中的数字度量可划分为...

2015-11-24 16:03:42

阅读数 1899

评论数 0

维度模型数据仓库(十九) —— 维度合并

(五)进阶技术         14. 维度合并         随着数据仓库中维度的增加,会发现有些通用的数据存在于多个维度中。例如,客户维度的客户邮编相关信息、送货邮编相关信息和工厂维度里都有邮编、城市和州。本篇说明如何把三个维度里的邮编相关信息合并到一个新的邮编维度。         修改...

2015-11-20 22:01:17

阅读数 2489

评论数 0

维度模型数据仓库(十八) —— 迟到的事实

(五)进阶技术         13. 迟到的事实         装载日期在生效日期后的事实就是迟到的事实。晚于订单日期进入源数据的销售订单可以看做是一个迟到事实的例子。销售订单被装载进其事实表时,装载的日期晚于销售订单的订单日期,因此是一个迟到的事实。(因为定期装载的是前一天的数据,所以这里的...

2015-11-19 10:09:58

阅读数 2383

评论数 1

维度模型数据仓库(十七) —— 无事实的事实表

(五)进阶技术         12. 无事实的事实表         本篇讨论一种技术,用来处理源数据中没有度量的需求。例如,产品源数据不包含产品数量信息,如果系统需要得到产品的数量,很显然不能简单地从数据仓库中直接得到。这时就要用到无事实的事实表技术。使用此技术可以通过持续跟踪产品的发布来计算...

2015-11-17 14:26:43

阅读数 4231

评论数 1

维度模型数据仓库(十六) —— 间接数据源

(五)进阶技术         11. 间接数据源         本篇讨论如何处理间接数据源。间接数据源与维度表具有不同的粒度,因此不能直接装载进数据仓库。在这里通过修改(五)进阶技术7. “多路径和参差不齐的层次”里的推广源数据说明怎样处理间接数据源。 CAMPAIGN SESSION,MON...

2015-11-16 13:48:58

阅读数 1416

评论数 0

维度模型数据仓库(十五) —— 多重星型模式

(五)进阶技术         10. 多重星型模式         从(五)进阶技术1.  “增加列”开始,已经通过增加列和表扩展了数据仓库,在(五)进阶技术5. “快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表(第一个是在...

2015-11-13 18:08:40

阅读数 3170

评论数 0

维度模型数据仓库(十四) —— 杂项维度

(五)进阶技术         9. 杂项维度         本篇讨论杂项维度。简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单,它可能有很多离散数据(yes-no这种类型的值),如 verification_ind(如果订单已经被审核,值为yes)credit_chec...

2015-11-13 13:45:43

阅读数 2105

评论数 0

维度模型数据仓库(十三) —— 退化维度

(五)进阶技术         8. 退化维度         本篇讨论一种称为退化维度的技术。该技术减少维度的数量,简化维度数据仓库的模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中,然后删除退...

2015-11-12 12:47:12

阅读数 6951

评论数 0

维度模型数据仓库(十二) —— 多路径和参差不齐的层次

(五)进阶技术         7. 多路径和参差不齐的层次         本篇讨论多路径层次,它是对单路径层次的扩展。上一篇里数据仓库的月维度只有一条层次路径,即年-季度-月这条路径。在本篇中加一个新的级别,推广期,并且加一个新的年-推广期-月的层次路径。这时月维度将有两条层次路径,因此具有多...

2015-11-11 14:13:23

阅读数 2808

评论数 3

维度模型数据仓库(十一) —— 维度层次

(五)进阶技术         6. 维度层次         大多数维度都具有一个或多个层次。例如,日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列来表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。除此之外,本篇还将讨论在维度...

2015-11-10 17:50:43

阅读数 5127

评论数 4

维度模型数据仓库(十) —— 快照

(五)进阶技术         5. 快照         前面实验说明了处理维度的扩展。本篇讨论两种事实表的扩展技术。         有些用户,尤其是管理者,经常会要看某个特定时间点的数据。也就是说,他们需要数据的快照。周期快照和累积快照是两种处理事实表扩展的技术。         周期快照是...

2015-11-10 09:19:46

阅读数 5516

评论数 0

维度模型数据仓库(九) —— 角色扮演维度

(五)进阶技术         4. 角色扮演维度         当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。         本篇将说明两类角色扮演维度的实现,分别是表别名和数据库视图。这两种都使用了...

2015-11-08 15:02:50

阅读数 2903

评论数 0

维度模型数据仓库(八) —— 维度子集

(五)进阶技术         3. 维度子集         有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中,所以叫维度子集。维度子集比细节维度小,因此更易使用,查询也更快。 ...

2015-11-06 11:56:53

阅读数 2352

评论数 0

维度模型数据仓库(七) —— 按需装载

(五)进阶技术         2. 按需装载         前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型,按需装载。所谓“按需装载”指的是,在正常调度之外,当源数据有效时或者数据仓库需要时进行装载。例如,促销销售源数据只有在促销期内有效,而在其它时间是无效的。     ...

2015-11-05 16:30:57

阅读数 1918

评论数 0

维度模型数据仓库(六) —— 增加列

(五)进阶技术         1. 增加列         数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本篇先讨论如果需要增加列,模式会发生怎样的变化。然后进一步说明如何在客户维度和销售订单事实表上添加列,并在新列上应用SCD2。假设需要在客户维度中增加送货地址属性,并在销售订...

2015-11-04 21:24:30

阅读数 2901

评论数 0

维度模型数据仓库(五) —— 定期装载

(四)定期装载         初始装载只在开始数据仓库使用前执行一次,然而,必须要按时调度定期执行装载源数据的过程。本篇说明执行定期装载的步骤,包括识别源数据与装载类型、使用SQL和Kettle两种方法开发和测试定期装载过程。         从源抽取数据导入数据仓库有两种方式,可以从源把数据...

2015-11-03 15:17:51

阅读数 3327

评论数 4

维度模型数据仓库(四) —— 初始装载

(三)初始装载         在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。例如,数据仓库使用的开始时间是2015年3月1日,而用户希望装载两年的历史数据,那么应该初始装...

2015-11-01 14:44:16

阅读数 4773

评论数 15

提示
确定要删除当前文章?
取消 删除