数据粒度（数据仓库）

最新推荐文章于 2023-12-02 17:04:12 发布

xwdok

最新推荐文章于 2023-12-02 17:04:12 发布

阅读量2.7k

点赞数

文章标签：数据仓库数据分析数据库存储

数据仓库的粒度

数据仓库中的粒度是指数据的详细程度，同样为了描述一个情况，我可以用很多的数据，但同样我也可以只用必需的数据。而这起决于存储器。如果有很大的硬盘，那就没有我们不能存的事情。所以，估计一年内里表中的最大行数和最小行数，是设计者的最大问题。这里牵扯到了一个概念：上下限推测的方法。（别问我，我也不懂）

然后通过简单的计算可以知道数据库大概的情况，然后可以调整我们的策略。说的仔细一点，我们可以采用双重粒度或者单一粒度的办法。

双重粒度是降低数据量的最佳方法。而且，大多数公司都采用这种方法。下面来一个分析：

双重粒度包括：低细节级和高细节级。要知道：在很低的细节级上建立轻度汇总数据是没有意义的。反过来，在太高的细节级建立汇总数据也是没有用的。所以，一定要进行数据粒度的评估，然后才能得出最佳的汇总方案。而可笑的是，这根本都是猜测出来的，没有正确性的保证，嘿嘿，没办法，谁让我们本来就是在做一件不知道条件，指知道结果的方程式呢，但你可以把你的结果给最终用户看，让她来评价这个好坏，别指望%100的通过，%50就很不错了：）

这里有一些反馈技巧和一个例子，在90页，你可以参考一下。

如果说，数据粒度教你建数据仓库的话，下一个话题就是教你管理啦！

而且，由于数据仓库的使用对象不尽相同，数据仓库的设计需要考虑其数据单元的细节程度，即粒度。细节程度越高，粒度级就越低，反之亦然。例如：一个简单的交易处于低粒度级，而每个月所有交易的汇总则处于一个高粒度级。通常，数据分析人员使用的数据粒度较低，而高层管理人员所使用的数据粒度较高。粒度同时决定了数据仓库所占用的物理空间的大小，尽管一条交易记录可能只占用200个字节，但是一个月所累积的10万条交易记录就占用了20M个字节。如果按月对每月的所有交易记录进行综合，所得到的记录可能只占用500个字节。