该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记,笔者将书中重点内容进行概括总结。大致保留书中结构,一部分根据自己的理解进行调整。如发现问题,欢迎批评指正。
《数据仓库》读书笔记:第8章 外部数据与数据仓库
-
内部结构化数据:
从现有系统抽取,数据来自企业内部,并且已经转换成一种规则的格式的数据。 -
外部数据:
产生于企业外部系统,通常以非结构化
、不可预测的格式进入企业的数据。
特点:反向规范化形式进入企业,失去数据来源标识
,短期内有用
,细节程度低
,数据在使用之前必须被重新构建。
1. 数据仓库中的外部数据
-
数据仓库中外部数据使用和存储的问题:
① 可用频率;
外部数据的呈现没有固定模式,当为了保证捕获正确的数据必须建立永久的监控方式。
② 外部数据的形式是完全没有规则的;
为了使之有用并放置于数据仓库内,就必须在外部数据进入数据仓库时对其格式化。
③ 不可预测性。
外部数据几乎在任何时候都可能来源于任何数据源。 -
获取和存储外部信息的方法:
① 将其存储在大容量存储介质如近线存储设备上;
② 创建两种外部数据的存储形式。
一种存储包括所有的外部数据,另一种小的多的存储只包含外部数据的一个子集。
外部数据成了数据仓库的附属物。通过索引
和数据仓库连接起来。
2. 外部数据的元数据
- 元数据对外部数据的作用?
① 根据元数据,管理者可以判断很多外部数据的信息,
② 浏览元数据为管理者减少大量工作,过滤掉不相关或过时文件。
就外部数据而言,适当地建立和维护元数据对于数据仓库地的操作是完全必要的。
- 通知数据
是一个为系统用户创建的文件,它表明用户所关系的数据的分类。当数据进入数据仓库和元数据时,一旦发现获得的数据是某人感兴趣的,就想那个人发出通知。
3. 存储外部数据
-
存储外部数据的方式:
① 所有外部数据存储在数据仓库中是不可能也不经济的。
② 在数据仓库的元数据中,对外部数据进行登记,创建一个条目来指向外部数据本身所在的位置。
③ 外部数据重要的信息存储在联机,容易访问的位置,其余不重要
的放在大容量存储设备上。 -
外部数据需要与数据仓库关联起来,否则会造成
数据冗余
,公司不同部门很可能捕获和存储相同数据。 -
外部数据存档
管理数据生命周期,决定数据是丢弃还是存档。通常外部数据从数据仓库移出到较便宜存储设备,并更新元数据对外部数据的位置引用。
4. 建模与外部数据
- 外部数据与数据模型极少相似之处,数据模型对外部数据的改造无能为力。
数据模型的作用是根据设计塑造环境,而外部数据不可塑。
5. 辅助报告
不仅原始数据能放入数据仓库,如果数据重复,可按照时间根据细节数据(如:汇总细节数据)产生辅助报告,来产生长期的趋势信息。
6. 外部数据和内部数据的比较
外部数据在一定时间范围内可与内部数据比较。
比较时,假设在一个公共主键上进行,然后外部数据和内部数据之间很难找到公共主键。需要将外部数据源和内部数据源的主键结构转换为一致
,这种转换都很费事。
参考书籍
[1] 《数据仓库》William H.Inmon著,王志涛等译,机械工业出版社。