- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 维度模型数据仓库(二十一) —— 分段维度
(五)进阶技术 16. 分段维度 本篇说明分段维度的实现技术。分段维度包含连续值的分段。例如,年度销售订单分段维度可能包含有叫做“低”、“中”、“高”的三档;各档定义分别为0.01到15000、15000.01到30000.00、30000.01到99999999.99。如果一个客户的年度销售订单金额为10000,则被归为“低”档。分段维度可以存储多个分段集
2015-11-25 17:31:43 2865
原创 维度模型数据仓库(二十) —— 累积的度量
(五)进阶技术 15. 累积的度量 本篇说明如何实现累积月底金额,并对数据仓库模式和初始装载、定期装载脚本做相应地修改。累积度量是半可加的,而且它的初始装载比前面做的要复杂的多。 可加、半可加、不可加事实 事实表中的数字度量可划分为三类。最灵活、最有用的度量是完全可加的,可加性度量可以按照与事实表关联的任意维度汇总。半可加
2015-11-24 16:03:42 2874
原创 维度模型数据仓库(十九) —— 维度合并
(五)进阶技术 14. 维度合并 随着数据仓库中维度的增加,会发现有些通用的数据存在于多个维度中。例如,客户维度的客户邮编相关信息、送货邮编相关信息和工厂维度里都有邮编、城市和州。本篇说明如何把三个维度里的邮编相关信息合并到一个新的邮编维度。 修改数据仓库模式 为了合并维度,需要改变数据仓库模式。图(五)- 14-1显示了修改后的模式。新增
2015-11-20 22:01:17 4065
原创 维度模型数据仓库(十八) —— 迟到的事实
(五)进阶技术 13. 迟到的事实 装载日期在生效日期后的事实就是迟到的事实。晚于订单日期进入源数据的销售订单可以看做是一个迟到事实的例子。销售订单被装载进其事实表时,装载的日期晚于销售订单的订单日期,因此是一个迟到的事实。(因为定期装载的是前一天的数据,所以这里的晚于指的是晚2天及其以上。) 迟到事实影响周期快照事实表的装载,如(五)进阶
2015-11-19 10:09:58 3621 1
原创 维度模型数据仓库(十七) —— 无事实的事实表
(五)进阶技术 12. 无事实的事实表 本篇讨论一种技术,用来处理源数据中没有度量的需求。例如,产品源数据不包含产品数量信息,如果系统需要得到产品的数量,很显然不能简单地从数据仓库中直接得到。这时就要用到无事实的事实表技术。使用此技术可以通过持续跟踪产品的发布来计算产品的数量。可以创建一个只有产品(计什么数)和日期(什么时候计数)维度代理键的事实表。之所以叫做无
2015-11-17 14:26:43 7978 1
原创 维度模型数据仓库(十六) —— 间接数据源
(五)进阶技术 11. 间接数据源 本篇讨论如何处理间接数据源。间接数据源与维度表具有不同的粒度,因此不能直接装载进数据仓库。在这里通过修改(五)进阶技术7. “多路径和参差不齐的层次”里的推广源数据说明怎样处理间接数据源。CAMPAIGN SESSION,MONTH,YEAR2014 First Campaign,1,20142014 First
2015-11-16 13:48:58 1984
原创 维度模型数据仓库(十五) —— 多重星型模式
(五)进阶技术 10. 多重星型模式 从(五)进阶技术1. “增加列”开始,已经通过增加列和表扩展了数据仓库,在(五)进阶技术5. “快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)。有了这两个事实表的数据仓库就是一个正
2015-11-13 18:08:40 4223
原创 维度模型数据仓库(十四) —— 杂项维度
(五)进阶技术 9. 杂项维度 本篇讨论杂项维度。简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单,它可能有很多离散数据(yes-no这种类型的值),如verification_ind(如果订单已经被审核,值为yes)credit_check_flag(表示此订单的客户信用状态是否已经检查)new_customer_ind(如果这是
2015-11-13 13:45:43 4308
原创 维度模型数据仓库(十三) —— 退化维度
(五)进阶技术 8. 退化维度 本篇讨论一种称为退化维度的技术。该技术减少维度的数量,简化维度数据仓库的模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。 退化订单维度 本节说明如何退化订单维度,包括对
2015-11-12 12:47:12 25961
原创 维度模型数据仓库(十二) —— 多路径和参差不齐的层次
(五)进阶技术 7. 多路径和参差不齐的层次 本篇讨论多路径层次,它是对单路径层次的扩展。上一篇里数据仓库的月维度只有一条层次路径,即年-季度-月这条路径。在本篇中加一个新的级别,推广期,并且加一个新的年-推广期-月的层次路径。这时月维度将有两条层次路径,因此具有多路径层次。本篇讨论的另一个主题是不完全层次,这种层次在它的一个或多个级别上没有数据。
2015-11-11 14:13:23 3890 3
原创 维度模型数据仓库(十一) —— 维度层次
(五)进阶技术 6. 维度层次 大多数维度都具有一个或多个层次。例如,日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列来表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。除此之外,本篇还将讨论在维度的层次上进行分组和钻取查询。多路径层次在下一篇“多路径和参差不齐的层次”中讨论。
2015-11-10 17:50:43 10530 4
原创 维度模型数据仓库(十) —— 快照
(五)进阶技术 5. 快照 前面实验说明了处理维度的扩展。本篇讨论两种事实表的扩展技术。 有些用户,尤其是管理者,经常会要看某个特定时间点的数据。也就是说,他们需要数据的快照。周期快照和累积快照是两种处理事实表扩展的技术。 周期快照是在一个给定的时间对事实表进行一段时期的总计。例如,一个月销售订单周期快照是每个月底时总的销售订
2015-11-10 09:19:46 7909
原创 维度模型数据仓库(九) —— 角色扮演维度
(五)进阶技术 4. 角色扮演维度 当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。 本篇将说明两类角色扮演维度的实现,分别是表别名和数据库视图。这两种都使用了MySQL的功能。表别名是在SQL语句里引用维度表多次,每次引用都赋予维度表一个别名。而数据库
2015-11-08 15:02:50 4511
原创 维度模型数据仓库(八) —— 维度子集
(五)进阶技术 3. 维度子集 有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中,所以叫维度子集。维度子集比细节维度小,因此更易使用,查询也更快。 本篇中将准备两个特定维度,它们均取自现有的维度:月份维度(日期维度的子集),P
2015-11-06 11:56:53 3365
原创 维度模型数据仓库(七) —— 按需装载
(五)进阶技术 2. 按需装载 前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型,按需装载。所谓“按需装载”指的是,在正常调度之外,当源数据有效时或者数据仓库需要时进行装载。例如,促销销售源数据只有在促销期内有效,而在其它时间是无效的。 在“准备数据仓库模拟环境”中讨论的“生成日期维度数据”可以看做是一种按需装载。数据仓库
2015-11-05 16:30:57 2623
原创 维度模型数据仓库(六) —— 增加列
(五)进阶技术 1. 增加列 数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本篇先讨论如果需要增加列,模式会发生怎样的变化。然后进一步说明如何在客户维度和销售订单事实表上添加列,并在新列上应用SCD2。假设需要在客户维度中增加送货地址属性,并在销售订单事实表中增加数量度量值。 修改数据库模式 图(五)- 1-1
2015-11-04 21:24:30 4366
原创 维度模型数据仓库(五) —— 定期装载
(四)定期装载 初始装载只在开始数据仓库使用前执行一次,然而,必须要按时调度定期执行装载源数据的过程。本篇说明执行定期装载的步骤,包括识别源数据与装载类型、使用SQL和Kettle两种方法开发和测试定期装载过程。 从源抽取数据导入数据仓库有两种方式,可以从源把数据抓取出来(拉),也可以请求源把数据发送(推)到数据仓库。影响选择数据抽取方式的一个重要因素是源数
2015-11-03 15:17:51 4489 4
原创 维度模型数据仓库(四) —— 初始装载
(三)初始装载 在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。例如,数据仓库使用的开始时间是2015年3月1日,而用户希望装载两年的历史数据,那么应该初始装载2013年3月1日到2015年2月28日之间的源数据。在2015年3月2日装载2015年3月1日的
2015-11-01 14:44:16 7060 16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人