《数据仓库》读书笔记:第4章 数据仓库中的粒度

该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记,笔者将书中重点内容进行概括总结。大致保留书中结构,一部分根据自己的理解进行调整。如发现问题,欢迎批评指正。

章节博文
1《数据仓库》读书笔记:第1章 决策支持系统的发展
2《数据仓库》读书笔记:第2章 数据仓库环境
3《数据仓库》读书笔记:第3章 设计数据仓库
4《数据仓库》读书笔记:第4章 数据仓库中的粒度
5《数据仓库》读书笔记:第5章 数据仓库和技术
6《数据仓库》读书笔记:第6章 分布式数据仓库
7《数据仓库》读书笔记:第7章 主管信息系统和数据仓库
8《数据仓库》读书笔记:第8章 外部数据与数据仓库
9《数据仓库》读书笔记:第9章 迁移到体系结构化环境
10《数据仓库》读书笔记:第10章 数据仓库和Web
11《数据仓库》读书笔记:第11章 非结构化数据和数据仓库
12  待续……

1. 恰当粒度的重要性

① 合理的粒度,使设计和实现数据仓库中其余方面也可进行顺畅;
② 粒度影响数据传送到不同环境中的效率,从而决定可以进行分析的类型;
③ 理解数据集市将会需要的数据粒度,数据仓库中的数据必须在一个所有数据集市所需要的最低的粒度水平上。

2. 粗略估计数据量

在这里插入图片描述
进行估计时,结果的准确度只要达到数据级即可。

3. 估计的总行数与表对照

一年期总行数五年期总行数存储、粒度对照参考
1亿10亿数据同时存在于磁盘和溢出存储器上,但大部分是在溢出存储器上,需要认真设计粒度
1000万10 000万可能有一些数据存储于溢出存储器,但大部分仍处于磁盘中,需要考虑粒度问题
100万1000万数据存储在磁盘上,几乎可以采用任何数据库设计
10万100万数据存储在磁盘上,几乎可以采用任何数据库设计

4. 存储设备

数据仓库数据量不断增长 ,经常使用的数据不经常使用的数据(睡眠数据,不活跃数据)自然分化。数据仓库使用一段时间之后,大部分数据变旧无人使用,需要分离这些数据到另一种存储介质。

  • 使用溢出存储器的软件支持
    跨介质存储管理器(CMSM)。磁盘存储器和近线存储器之间的数据移动;
    数据活动监控器。确定数据的使用情况,数据在哪里存储,哪些数据正在使用/没有使用。
  • 使用海量溢出存储器的软件支持
    近线/海量备用存储器直接访问与分析,能够知道数据在近线存储器中的存储位置。

5. 反馈循环

在这里插入图片描述

  • 快速建立数据仓库很小的子集并认真听取用户的反馈意见;
  • 使用原型法;
  • 参考别人的经验;
  • 与有经验的用户协同工作;
  • 以企业中已有的功能需求作为参考;
  • 用模拟的数据进行JAD(联合应用程序设计)会议。

参考书籍

[1] 《数据仓库》William H.Inmon著,王志涛等译,机械工业出版社。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值