文章目录
数据仓库和数据挖掘概述
- 定义:数据挖掘是从大量的数据中挖掘出隐含的,未知的,用户可能感兴趣的和对决策有潜在价值的知识和规则
数据仓库
-
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库”
-
定义:数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
-
数据仓库既保存过去的数据又保存当前的数据
-
数据仓库的数据是大量数据库的集成
数据挖掘可以挖掘的一些常用模式如下:
关联分析
关联规则挖掘:反映一个事件和其他事件依赖或关联的知识。
聚类分析
最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
示例:扑克牌的划分
分类挖掘
反映同类事物共同性质的特征性之和和不同事物之间的差异性特征知识(有监督的学习方法)
垃圾邮件的识别属于分类问题,训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件建立预测模型
孤立点分析
对差异和极端特例的描述
孤立点:事物偏离常规的异常现象,标准类外的特例,数据聚类外的离群值
数据仓库的两个主要作用
数据仓库与数据挖掘的区别
数据仓库与数据挖掘的联系
数据仓库的三级模型
-
概念模型
数据仓库用信息包图表示概念模型
-
逻辑模型
通常由三种逻辑模型表示法:星型模型,雪花模型,事实星座模型
-
物理模型
主要进行:数据存储结构,存储策略,索引策略,存储分配优化
OLAP
OLAP概述
OLAP的技术核心是维,因此OLAP也可以说是多维数据分析工具的集合。
OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。
OLAP与DW
OLAP与OLTP
OLAP的特性
- 快速性
系统应在5秒内对用户的大部分分析要求做出反应
-
可分析性
应能处理与应用有关的任何逻辑分析和统计分析
-
多维性
提供数据的多维试图和分析
-
信息性
应能及时获得信息并且管理大容量信息
OLAP的分析方法
切片
选定一个二维子集,切出一个平面
切块
选定一个三位子集,切出立方体
旋转
改变一个报告显示的维方向
钻取
根据维层次改变数据的粒度
OLAP的数据组织
-
ROLAP
rolap是基于关系型数据库的OLAP
-
MOLAP
MOLAP是基于多维数据库存储方式建立的OLAP,采用类似多维数组的结构
-
HOLAP
HOLAP是混合型的
ROLAP和MOLAP的对比
- 数据存储速度:ROLAP需要将SQL语句转化为多维存储语句,临时拼合为多维数据立方体,因此ROLAP的响应时间较长
- 维度变化的适应性:MOLAP增加新的维度,则多维数据库通常需要重新建立,ROLAP对于维表的变更有很好的适应性
数据预处理
数据的杂乱性,重复性,不完整性,噪声数据会对数据挖掘带来很大的影响。
数据预处理的常见方法
数据清洗:去掉数据中的噪声
数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集。
数据变换:数据的规范化
数据归约通过聚集,删除冗余属性或聚类等方法来压缩数据。
数据清洗
-
空缺值的处理
- 忽略该元组
- 人工填写空缺值
- 使用属性的平均值填充空缺值
- 使用与给定元组属同一类的所有样本的平均值
- 使用一个全局变量填充空缺值
- 使用最可能的值填充空缺值:利用回归,贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
-
噪声数据的处理
- 分箱
-
聚类方法
-
线性回归
-
人机结合共同检测
-
不一致数据的处理
- 人工更正
- 利用知识工程工具
- 数据字典
数据集成
模式匹配问题
冗余问题
数据值冲突问题
数据变换
- 平滑
- 聚集:对数据进行汇总和聚集
- 规范化:将数据按照比例进行缩放,使之落入一个特定区域,以消除数值型属性因大小不一而造成的挖掘结果的偏差,如将工资收入映射到[-1,1]的范围内
数据归约
数据规约是在不影响数据挖掘的情况下缩小所挖掘的数据的规模
数据归约的策略
-
数据立方体聚集
-
维归约
把不相关的属性给删掉,就能减少数据量
如何才能选择好的属性子集?
策略是局部最优选择,期望由此导致全局最优解
逐步向前选择,逐步向后删除,向前选择和向后删除的结合,判定树归纳。
-
数据离散化
- 分箱
- 基于熵的离散化
- 通过自然划分分段
- 聚类
联机分析处理
从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。