1、数据仓库产生的原因
(1)操作型数据处理
(2)分析型数据处理
2、传统的数据库系统不能应用于分析型数据处理,为什么呢?
(1)数据的分散
(2)“蜘蛛网”问题
(3)数据不一致问题
(4)数据动态集成问题
(5)历史数据问题
(6)数据的综合问题
3、数据仓库的数据具有以下四种特征
(1)数据仓库的数据是面向主题的;
(2)数据仓库的数据时集成的
(3)数据仓库的数据时不可更新的
(4)数据仓库的数据是随时间不断变化的
4、数据仓库的特征中的不可更新和随时间不断变化是否矛盾?
不矛盾
不可更新指数据可读不可改,随时间不断变化是指新数据进来,旧数据删除,是对数据的维护,所以不矛盾
5、数据仓库的体系结构 P14
数据仓库系统由数据源、集成工具、数据仓库与数据库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成
6、ODS主要是适应进行企业级的全局应用的需求而产生的,大致可以分成两类 P22
(1)一类是进行企业级的联机事务处理
(2)另一类可以称之为“即时OLAP”数据处理
7、数据仓库中数据粒度可以分为两种形式 P31
(1)第一种粒度是对数据仓库中数据的综合程度高低的一个度量
(2)另一种特殊形式的粒度是样本数据库
8、粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多 P31
9、数据分割是数据仓库中另一个重要概念。它指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。数据分割后的数据单元称为分片。P32
10、捕捉变化数据的常用途径有几种?P32
(1)时标方法
(2)DELTA文件
(3)前后快照文件的方法
(4)日志文件
11、常见的多维数据模型有:星形、雪片和事实群模型(填空或者问答题,如果是问答题需展开回答) P49
星形模型:
12、常用的多维分析操作有切片、切块、旋转、下钻和上卷等 (填空或者问答题,如果是问答题需展开回答) P53
13、聚集函数可以分为三类 P52
(1)分布型聚集函数
(2)代数型聚集函数
(3)整体型聚集函数
14、通常将基于多维数组存储的OLAP实现方式称为MOLAP,而将基于关系表存储的OLAP实现方式成为ROLAP P66
15、计算题:计算支持度和置信度 P123
16、什么是回归和分类?P150
在预测模型中,一个变量被表达成其他变量的函数。因此,可以把预测模型的过程看作是学习一种映射或者函数Y=f(X;0)。这里f是模型结构的函数形式,o是f中的未知参数,X通常被称之为输入变量,是一个P维向量,代表观察到的对象的P个属性值,Y通常被称之为相应变量,是一个标量,代表预测的结果。如果Y是数量型变量,那么学习从向量X到Y的映射的过程叫做回归,如果Y是范畴型变量,则叫分类。
17、聚类分析的定义 P180
聚类分析可以这样定义:将数据集分组,使其具有最大的组内相似性和最小的组间相似性。也就是说,聚类分析后的结果要达到不同组中的对象尽可能地不相似,而同一组中的对象尽可能的相似。
18、提高数据仓库性能的 方法 见课件
(1)合并表
(2)建立数据序列
(3)引入冗余
(4)进一步细分数据
(5)生成导出数据
(6)建立广义索引
(7)粒度划分
(8)分割
19、数据处理的两种基本类型
操作型(与业务活动关联)
分析型(与决策活动关联)
(1) 事务处理和分析处理的性能特性不同
(2) 数据集成问题
(3) 数据动态集成问题
(4) 历史数据问题
(5) 数据的综合问题
21、DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因
22、研究发现,Naïve Bayes Classifier在性能上和Decision Tree、Neural Network classifiers 相当。在应用于大数据集时,具有较高的准确率和速度