《数据仓库》读书笔记：第4章数据仓库中的粒度

最新推荐文章于 2022-02-16 18:03:17 发布

search-lemon

最新推荐文章于 2022-02-16 18:03:17 发布

阅读量436

点赞数 1

分类专栏：数据仓库文章标签：数据仓库

本文链接：https://blog.csdn.net/weixin_44056920/article/details/104313918

版权

数据仓库专栏收录该内容

14 篇文章 0 订阅

订阅专栏

该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记，笔者将书中重点内容进行概括总结。大致保留书中结构，一部分根据自己的理解进行调整。如发现问题，欢迎批评指正。

章节	博文
1	《数据仓库》读书笔记：第1章决策支持系统的发展
2	《数据仓库》读书笔记：第2章数据仓库环境
3	《数据仓库》读书笔记：第3章设计数据仓库
4	《数据仓库》读书笔记：第4章数据仓库中的粒度
5	《数据仓库》读书笔记：第5章数据仓库和技术
6	《数据仓库》读书笔记：第6章分布式数据仓库
7	《数据仓库》读书笔记：第7章主管信息系统和数据仓库
8	《数据仓库》读书笔记：第8章外部数据与数据仓库
9	《数据仓库》读书笔记：第9章迁移到体系结构化环境
10	《数据仓库》读书笔记：第10章数据仓库和Web
11	《数据仓库》读书笔记：第11章非结构化数据和数据仓库
12	待续……

《数据仓库》读书笔记：第4章数据仓库中的粒度

1. 恰当粒度的重要性

① 合理的粒度，使设计和实现数据仓库中其余方面也可进行顺畅；
② 粒度影响数据传送到不同环境中的效率，从而决定可以进行分析的类型；
③ 理解数据集市将会需要的数据粒度，数据仓库中的数据必须在一个所有数据集市所需要的最低的粒度水平上。

2. 粗略估计数据量

在这里插入图片描述
进行估计时，结果的准确度只要达到数据级即可。

3. 估计的总行数与表对照

一年期总行数	五年期总行数	存储、粒度对照参考
1亿	10亿	数据同时存在于磁盘和溢出存储器上，但`大部分是在溢出存储器`上，`需要认真设计粒度`
1000万	10 000万	可能有一些数据存储于溢出存储器，但`大部分仍处于磁盘`中，`需要考虑粒度问题`
100万	1000万	数据存储在`磁盘`上，几乎可以采用任何数据库设计
10万	100万	数据存储在磁盘上，几乎可以采用任何数据库设计

4. 存储设备

数据仓库数据量不断增长，经常使用的数据与不经常使用的数据（睡眠数据，不活跃数据）自然分化。数据仓库使用一段时间之后，大部分数据变旧无人使用，需要分离这些数据到另一种存储介质。

使用溢出存储器的软件支持
① 跨介质存储管理器（CMSM）。磁盘存储器和近线存储器之间的数据移动；
② 数据活动监控器。确定数据的使用情况，数据在哪里存储，哪些数据正在使用/没有使用。
使用海量溢出存储器的软件支持
③ 近线/海量备用存储器直接访问与分析，能够知道数据在近线存储器中的存储位置。