NEFU数据仓库与数据挖掘复习

之子与安

已于 2022-10-09 20:36:16 修改

阅读量842

点赞数 1

文章标签：数据仓库数据挖掘数据库

于 2022-10-09 20:25:13 首次发布

本文链接：https://blog.csdn.net/weixin_52525353/article/details/127233350

版权

数据仓库和数据挖掘概述

定义：数据挖掘是从大量的数据中挖掘出隐含的，未知的，用户可能感兴趣的和对决策有潜在价值的知识和规则

数据仓库

数据仓库是在数据库已经大量存在的情况下，为了进一步挖掘数据资源，为了决策需要而产生的，它并不是所谓的“大型数据库”
定义：数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
数据仓库既保存过去的数据又保存当前的数据
数据仓库的数据是大量数据库的集成

数据挖掘可以挖掘的一些常用模式如下：

关联分析

关联规则挖掘：反映一个事件和其他事件依赖或关联的知识。

聚类分析

最大化类内的相似性和最小化类间的相似性（无监督的学习方法）

示例：扑克牌的划分

分类挖掘

反映同类事物共同性质的特征性之和和不同事物之间的差异性特征知识（有监督的学习方法）

垃圾邮件的识别属于分类问题，训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息，需要利用已有的训练邮件建立预测模型

孤立点分析

对差异和极端特例的描述

孤立点：事物偏离常规的异常现象，标准类外的特例，数据聚类外的离群值

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Zhfk0KU0-1665318257631)(C:\Users\64254\AppData\Roaming\Typora\typora-user-images\image-20221008145835276.png)]$

数据仓库的两个主要作用

存储经过加工处理的决策需要的数据
查询决策分析的依据

数据仓库的关键特征
1. 面向主题
2. 集成的
3. 随时间而变化的
4. 不容易丢失的

数据仓库与数据挖掘的区别

在这里插入图片描述

数据仓库与数据挖掘的联系

在这里插入图片描述

数据仓库的三级模型

概念模型

数据仓库用信息包图表示概念模型

在这里插入图片描述

逻辑模型

通常由三种逻辑模型表示法：星型模型，雪花模型，事实星座模型
物理模型

主要进行：数据存储结构，存储策略，索引策略，存储分配优化

OLAP

OLAP概述

OLAP的技术核心是维，因此OLAP也可以说是多维数据分析工具的集合。

在这里插入图片描述

OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。

OLAP与DW

在这里插入图片描述

OLAP与OLTP

OLAP的特性

快速性

系统应在5秒内对用户的大部分分析要求做出反应

可分析性

应能处理与应用有关的任何逻辑分析和统计分析
多维性

提供数据的多维试图和分析
信息性

应能及时获得信息并且管理大容量信息

OLAP的分析方法

切片

选定一个二维子集，切出一个平面

切块

选定一个三位子集，切出立方体

旋转

改变一个报告显示的维方向

钻取

根据维层次改变数据的粒度

OLAP的数据组织

ROLAP

rolap是基于关系型数据库的OLAP
MOLAP

MOLAP是基于多维数据库存储方式建立的OLAP，采用类似多维数组的结构
HOLAP

HOLAP是混合型的

ROLAP和MOLAP的对比

数据存储速度：ROLAP需要将SQL语句转化为多维存储语句，临时拼合为多维数据立方体，因此ROLAP的响应时间较长
维度变化的适应性：MOLAP增加新的维度，则多维数据库通常需要重新建立，ROLAP对于维表的变更有很好的适应性

数据预处理

数据的杂乱性，重复性，不完整性，噪声数据会对数据挖掘带来很大的影响。

数据预处理的常见方法

数据清洗：去掉数据中的噪声

数据集成:将多个数据源合并成一致的数据存储，构成一个完整的数据集。

数据变换：数据的规范化

数据归约通过聚集，删除冗余属性或聚类等方法来压缩数据。

在这里插入图片描述

数据清洗

空缺值的处理
- 忽略该元组
- 人工填写空缺值
- 使用属性的平均值填充空缺值
- 使用与给定元组属同一类的所有样本的平均值
- 使用一个全局变量填充空缺值
- 使用最可能的值填充空缺值：利用回归，贝叶斯计算公式或判定树归纳确定，推断出该条记录特定属性最大可能的取值
噪声数据的处理
- 分箱

在这里插入图片描述