数据仓库与数据挖掘知识点梳理

本文详细梳理了数据仓库与数据挖掘的关键知识点,包括数据挖掘的定义、功能,数据仓库的概述、作用和特征,数据立方体的概念,OLAP的分析方法,以及数据预处理的步骤和方法。重点探讨了数据清理、数据集成、数据变换和数据规约等预处理技术,旨在为决策支持提供有力工具。
摘要由CSDN通过智能技术生成

数据仓库与数据挖掘知识点梳理

一:数据挖掘

1:什么是数据挖掘

数据挖掘是从大量的数据中挖掘出隐含的未知的用户可能感兴趣的对决策有潜在价值的知识和规则。
----简单的说,数据挖掘就是从大量的数据中发现有用信息的过程

数据的丰富带来了对强有力的数据分析工具的需求:

解决办法:数据仓库技术和数据挖掘技术
数据仓库和联机分析处理技术(存储)
数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)。

注意事项:

  1. 早期的数据库主要支持联机事务处理
  2. 数据仓库用于决策分析,并不是所谓的大型数据库。
    —数据仓库的数据是大量数据库的集成。
  3. 数据库用于事务处理,数据仓库用于决策分析

2:数据挖掘的功能

  1. 关联分析(描述):反映一个事件和其他事件之间依赖或关联的知识。
  2. 聚类分析(描述):物以类聚,人以群分
  3. 分类(预测):反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。
    ------注:聚类是一种无指导的观察式学习,没有预先定义的类;而分类问题是有指导的示例式学习,有预先定义的类。
  4. 孤立点分析(预测):
1.关联分析(描述) 反映一个事件和其他事件之间依赖或关联的知识
2.聚类分析(描述) 物以类聚,人以群分
3.分类(预测) 反映同类事物共同性质的特征型知识和不同事物之间的差
4.孤立点分析(预测) 对差异和极端特例的描述
数据库 事务型(操作型)数据处理
数据仓库 分析型数据处理
数据挖掘 知识发现

二:数据仓库

1:什么是数据仓库

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
数据仓库之父:William H.Inmon
严格定义:
数据仓库是一个面向主题的集成的随时间而变化的不容易丢失的数据集合,支持管理部门的决策过程.—W.H.Inmon

2:数据仓库的作用

  1. 存储经过加工处理的决策需要的数据
  2. 查询和决策分析的依据

3:数据仓库的关键特征

  1. 面相主题的
    数据仓库中所有数据都是围绕某一主题组织、展开的
  2. 集成的
    一个数据仓库是通过集成多个异种数据源来构造的
  3. 不容易丢失的(非易失的)
    只进行两种数据访问:
    数据的初始装载;
    查询操作
  4. 随时间而变化的(时变的)
    从历史的角度提供信息

4:数据仓库与数据挖掘的区别

数据仓库:是一种存储技术,它能适应于不同用户提供对不同决策需要所需的数据和信息。
数据挖掘:是一种分析技术,研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

注:数据仓库并不是数据挖掘的必要条件

三:数据立方体

数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中,数据以数据立方体(data cube)的形式存在。

  1. 尽管我们经常把数据立方体看作3-D几何结构,但实际上,在数据仓库中,数据立方体是n-D的
  2. 3-D的数据立方体可以以
  • 6
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值