数据挖掘考试习题汇总

本文汇总了数据挖掘考试的关键知识点,涉及数据仓库的定义、元数据类型、OLAP操作、数据处理类别、数据仓库系统架构、ETL过程、数据粒度、星型和雪花型模式、SQL Server SSAS在数据仓库中的作用、数据挖掘算法如Apriori和FP-growth,以及聚类分析的类型和方法。内容包括数据仓库的组成、ETL软件功能、数据清洗、支持度和置信度计算、信息包图和K-means算法等。
摘要由CSDN通过智能技术生成

第一章

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构独立型数据集合以来型数据结合和操作型数据存储逻辑型数据集中和实时数据仓库

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

第二章

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值