该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记,笔者将书中重点内容进行概括总结。大致保留书中结构,一部分根据自己的理解进行调整。如发现问题,欢迎批评指正。
《数据仓库》读书笔记:第4章 数据仓库中的粒度
1. 恰当粒度的重要性
① 合理的粒度,使设计和实现数据仓库中其余方面也可进行顺畅;
② 粒度影响数据传送到不同环境中的效率,从而决定可以进行分析的类型;
③ 理解数据集市将会需要的数据粒度,数据仓库中的数据必须在一个所有数据集市所需要的最低的粒度水平上。
2. 粗略估计数据量
进行估计时,结果的准确度只要达到数据级即可。
3. 估计的总行数与表对照
一年期总行数 | 五年期总行数 | 存储、粒度对照参考 |
---|---|---|
1亿 | 10亿 | 数据同时存在于磁盘和溢出存储器上,但大部分是在溢出存储器 上,需要认真设计粒度 |
1000万 | 10 000万 | 可能有一些数据存储于溢出存储器,但大部分仍处于磁盘 中,需要考虑粒度问题 |
100万 | 1000万 | 数据存储在磁盘 上,几乎可以采用任何数据库设计 |
10万 | 100万 | 数据存储在磁盘上,几乎可以采用任何数据库设计 |
4. 存储设备
数据仓库数据量不断增长 ,经常使用的数据与不经常使用的数据(睡眠数据,不活跃数据)自然分化。数据仓库使用一段时间之后,大部分数据变旧无人使用,需要分离这些数据到另一种存储介质。
- 使用溢出存储器的软件支持
① 跨介质存储管理器(CMSM)。磁盘存储器和近线存储器之间的数据移动;
② 数据活动监控器。确定数据的使用情况,数据在哪里存储,哪些数据正在使用/没有使用。- 使用海量溢出存储器的软件支持
③ 近线/海量备用存储器直接访问与分析,能够知道数据在近线存储器中的存储位置。
5. 反馈循环
- 快速建立数据仓库很小的子集并认真听取用户的反馈意见;
- 使用原型法;
- 参考别人的经验;
- 与有经验的用户协同工作;
- 以企业中已有的功能需求作为参考;
- 用模拟的数据进行JAD(联合应用程序设计)会议。
参考书籍
[1] 《数据仓库》William H.Inmon著,王志涛等译,机械工业出版社。