数据仓库与数据挖掘（二）

最新推荐文章于 2022-09-14 18:56:03 发布

芸复山人

最新推荐文章于 2022-09-14 18:56:03 发布

阅读量865

点赞数

分类专栏：数据挖掘/机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ycy258325/article/details/52810178

版权

数据挖掘/机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、数据仓库产生的原因

（1）操作型数据处理

（2）分析型数据处理

2、传统的数据库系统不能应用于分析型数据处理，为什么呢？

（1）数据的分散

（2）“蜘蛛网”问题

（3）数据不一致问题

（4）数据动态集成问题

（5）历史数据问题

（6）数据的综合问题

3、数据仓库的数据具有以下四种特征

（1）数据仓库的数据是面向主题的；

（2）数据仓库的数据时集成的

（3）数据仓库的数据时不可更新的

（4）数据仓库的数据是随时间不断变化的

4、数据仓库的特征中的不可更新和随时间不断变化是否矛盾？

不矛盾

不可更新指数据可读不可改，随时间不断变化是指新数据进来，旧数据删除，是对数据的维护，所以不矛盾

5、数据仓库的体系结构 P14

数据仓库系统由数据源、集成工具、数据仓库与数据库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成

6、ODS主要是适应进行企业级的全局应用的需求而产生的，大致可以分成两类 P22

（1）一类是进行企业级的联机事务处理

（2）另一类可以称之为“即时OLAP”数据处理

7、数据仓库中数据粒度可以分为两种形式 P31

（1）第一种粒度是对数据仓库中数据的综合程度高低的一个度量

（2）另一种特殊形式的粒度是样本数据库

8、粒度越小，细节程度越高，综合程度越低，回答查询的种类就越多 P31

9、数据分割是数据仓库中另一个重要概念。它指将数据分布到各自的物理单元中，以便能分别独立处理，提高数据分析效率。数据分割后的数据单元称为分片。P32

10、捕捉变化数据的常用途径有几种？P32

（1）时标方法

（2）DELTA文件

（3）前后快照文件的方法

（4）日志文件

11、常见的多维数据模型有：星形、雪片和事实群模型（填空或者问答题，如果是问答题需展开回答） P49

星形模型：

12、常用的多维分析操作有切片、切块、旋转、下钻和上卷等（填空或者问答题，如果是问答题需展开回答） P53

13、聚集函数可以分为三类 P52

（1）分布型聚集函数

（2）代数型聚集函数

（3）整体型聚集函数

14、通常将基于多维数组存储的OLAP实现方式称为MOLAP，而将基于关系表存储的OLAP实现方式成为ROLAP P66

15、计算题：计算支持度和置信度 P123

16、什么是回归和分类？P150

在预测模型中，一个变量被表达成其他变量的函数。因此，可以把预测模型的过程看作是学习一种映射或者函数Y=f（X;0）。这里f是模型结构的函数形式，o是f中的未知参数，X通常被称之为输入变量，是一个P维向量，代表观察到的对象的P个属性值，Y通常被称之为相应变量，是一个标量，代表预测的结果。如果Y是数量型变量，那么学习从向量X到Y的映射的过程叫做回归，如果Y是范畴型变量，则叫分类。

17、聚类分析的定义 P180

聚类分析可以这样定义：将数据集分组，使其具有最大的组内相似性和最小的组间相似性。也就是说，聚类分析后的结果要达到不同组中的对象尽可能地不相似，而同一组中的对象尽可能的相似。

18、提高数据仓库性能的方法见课件

（1）合并表

（2）建立数据序列

（3）引入冗余

（4）进一步细分数据

（5）生成导出数据

（6）建立广义索引

（7）粒度划分

（8）分割

19、数据处理的两种基本类型

操作型（与业务活动关联）

分析型（与决策活动关联）

n 操作型处理也叫事务处理，是指对数据库联机的日常操作，通常是对一个或一组记录的查询和修改，主要是为企业的特定应用服务的，人们关心的是响应时间，数据的安全性和完整性。

分析型处理则用于管理人员的决策分析。例如：DSS,EIS和多维分析等，经常要访问大量的历史数据。

两者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。

20、事务处理环境不适宜DSS应用的原因

(1) 事务处理和分析处理的性能特性不同

(2) 数据集成问题

(3) 数据动态集成问题

(4) 历史数据问题

(5) 数据的综合问题

21、DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因

22、研究发现，Naïve Bayes Classifier在性能上和Decision Tree、Neural Network classifiers 相当。在应用于大数据集时，具有较高的准确率和速度

Naïve Bayes Classifier假设属性值之间是独立的，因此可以简化很多计算，故称之为Naïve。当属性值之间有依赖关系时，采用BayesianBelief Networks进行分类。

= DSS 对数据集成的迫切需要是数据仓库技术出现的最重要动因

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据仓库与数据挖掘（二）

1、数据仓库产生的原因（1）操作型数据处理（2）分析型数据处理2、传统的数据库系统不能应用于分析型数据处理，为什么呢？（1）数据的分散（2）“蜘蛛网”问题（3）数据不一致问题（4）数据动态集成问题（5）历史数据问题（6）数据的综合问题3、数据仓库的数据具有以下四种特征（1）数据仓库的数据是面向主题的；（2）数据仓库的数据时集成的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

芸复山人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。