数据仓库与数据挖掘知识点梳理
一:数据挖掘
1:什么是数据挖掘
数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
----简单的说,数据挖掘就是从大量的数据中发现有用信息的过程
数据的丰富带来了对强有力的数据分析工具的需求:
解决办法:数据仓库技术和数据挖掘技术
数据仓库和联机分析处理技术(存储)
数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)。
注意事项:
- 早期的数据库主要支持联机事务处理
- 数据仓库用于决策分析,并不是所谓的大型数据库。
—数据仓库的数据是大量数据库的集成。- 数据库用于事务处理,数据仓库用于决策分析
2:数据挖掘的功能
- 关联分析(描述):反映一个事件和其他事件之间依赖或关联的知识。
- 聚类分析(描述):物以类聚,人以群分
- 分类(预测):反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。
------注:聚类是一种无指导的观察式学习,没有预先定义的类;而分类问题是有指导的示例式学习,有预先定义的类。- 孤立点分析(预测):
1.关联分析(描述) | 反映一个事件和其他事件之间依赖或关联的知识 |
---|---|
2.聚类分析(描述) | 物以类聚,人以群分 |
3.分类(预测) | 反映同类事物共同性质的特征型知识和不同事物之间的差 |
4.孤立点分析(预测) | 对差异和极端特例的描述 |
数据库 | 事务型(操作型)数据处理 |
---|---|
数据仓库 | 分析型数据处理 |
数据挖掘 | 知识发现 |
二:数据仓库
1:什么是数据仓库
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
数据仓库之父:William H.Inmon
严格定义:
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.—W.H.Inmon
2:数据仓库的作用
- 存储经过加工处理的决策需要的数据
- 查询和决策分析的依据
3:数据仓库的关键特征
- 面相主题的:
数据仓库中所有数据都是围绕某一主题组织、展开的- 集成的:
一个数据仓库是通过集成多个异种数据源来构造的- 不容易丢失的(非易失的):
只进行两种数据访问:
数据的初始装载;
查询操作- 随时间而变化的(时变的):
从历史的角度提供信息
4:数据仓库与数据挖掘的区别
数据仓库:是一种存储技术,它能适应于不同用户提供对不同决策需要所需的数据和信息。
数据挖掘:是一种分析技术,研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
注:数据仓库并不是数据挖掘的必要条件
三:数据立方体
数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中,数据以数据立方体(data cube)的形式存在。
- 尽管我们经常把数据立方体看作3-D几何结构,但实际上,在数据仓库中,数据立方体是n-D的
- 3