数据粒度(数据仓库)

数据仓库的粒度


数据仓库中的粒度是指数据的详细程度,同样为了描述一个情况,我可以用很多的数据,但同样我也可以只用必需的数据。而这起决于存储器。如果有很大的硬盘,那就没有我们不能存的事情。所以,估计一年内里表中的最大行数和最小行数,是设计者的最大问题。这里牵扯到了一个概念:上下限推测的方法。(别问我,我也不懂)


然后通过简单的计算可以知道数据库大概的情况,然后可以调整我们的策略。说的仔细一点,我们可以采用双重粒度或者单一粒度的办法。


双重粒度是降低数据量的最佳方法。而且,大多数公司都采用这种方法。下面来一个分析:


双重粒度包括:低细节级和高细节级。要知道:在很低的细节级上建立轻度汇总数据是没有意义的。反过来,在太高的细节级建立汇总数据也是没有用的。所以,一定要进行数据粒度的评估,然后才能得出最佳的汇总方案。而可笑的是,这根本都是猜测出来的,没有正确性的保证,嘿嘿,没办法,谁让我们本来就是在做一件不知道条件,指知道结果的方程式呢,但你可以把你的结果给最终用户看,让她来评价这个好坏,别指望%100的通过,%50就很不错了:)


这里有一些反馈技巧和一个例子,在90页,你可以参考一下。


如果说,数据粒度教你建数据仓库的话,下一个话题就是教你管理啦!

而且,由于数据仓库的使用对象不尽相同,数据仓库的设计需要考虑其数据单元的细节程度,即粒度。细节程度越高,粒度级就越低,反之亦然。例如:一个简单的交易处于低粒度级,而每个月所有交易的汇总则处于一个高粒度级。通常,数据分析人员使用的数据粒度较低,而高层管理人员所使用的数据粒度较高。粒度同时决定了数据仓库所占用的物理空间的大小,尽管一条交易记录可能只占用200个字节,但是一个月所累积的10万条交易记录就占用了20M个字节。如果按月对每月的所有交易记录进行综合,所得到的记录可能只占用500个字节。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值