数据仓库的粒度
数据仓库中的粒度是指数据的详细程度,同样为了描述一个情况,我可以用很多的数据,但同样我也可以只用必需的数据。而这起决于存储器。如果有很大的硬盘,那就没有我们不能存的事情。所以,估计一年内里表中的最大行数和最小行数,是设计者的最大问题。这里牵扯到了一个概念:上下限推测的方法。(别问我,我也不懂)
然后通过简单的计算可以知道数据库大概的情况,然后可以调整我们的策略。说的仔细一点,我们可以采用双重粒度或者单一粒度的办法。
双重粒度是降低数据量的最佳方法。而且,大多数公司都采用这种方法。下面来一个分析:
双重粒度包括:低细节级和高细节级。要知道:在很低的细节级上建立轻度汇总数据是没有意义的。反过来,在太高的细节级建立汇总数据也是没有用的。所以,一定要进行数据粒度的评估,然后才能得出最佳的汇总方案。而可笑的是,这根本都是猜测出来的,没有正确性的保证,嘿嘿,没办法,谁让我们本来就是在做一件不知道条件,指知道结果的方程式呢,但你可以把你的结果给最终用户看,让她来评价这个好坏,别指望%100的通过,%50就很不错了:)
这里有一些反馈技巧和一个例子,在90页,你可以参考一下。
如果说,数据粒度教你建数据仓库的话,下一个话题就是教你管理啦!
而且,由于数据仓库的使用对象不尽相同,数据仓库的设计需要考虑其数据单元的细节程度,即粒度。细节程度越高,粒度级就越低,反之亦然。例如:一个简单的交易处于低粒度级,而每个月所有交易的汇总则处于一个高粒度级。通常,数据分析人员使用的数据粒度较低,而高层管理人员所使用的数据粒度较高。粒度同时决定了数据仓库所占用的物理空间的大小,尽管一条交易记录可能只占用200个字节,但是一个月所累积的10万条交易记录就占用了20M个字节。如果按月对每月的所有交易记录进行综合,所得到的记录可能只占用500个字节。