数据挖掘的概念

  1. 现在科学和工程用“首用原则模型”来描述物理、生物和社会系统,这种方法就是先建立基本的科学模型,比如扭动运动定律或者麦克斯韦的电磁公式,然后根据模型建立机械工程或电子工程方面的各种应用,在这种方法中,用实验数据来验证基本的“首要原则模型”,并估计一些难以直接测量或者根本不可能直接测量的参数,但是在很多领域,基本的“首要原则模型”都是未知的,或者所研究的系统太复杂了,难以进行数学定型,随着计算机的广发应用,此类系统生成了大量数据,在没有“首要原则模型”时,可以利用这些易得的数据,估计系统变量之间的有效关系来导出模型,这样“基于首要原则模型的”传统建模和方法,就变成直接从数据中开发模型,并进行分析
    2.在实践中,数据挖掘的两个基本目标就是预测和描述,预测是使用数据集中的一些变量或域来预测其他相关变量的未知值或未来的值,描述是找出描述可由人类解释的数据模式
    预测性数据挖掘:生成给定数据集所描述的系统模型
    描述性数据挖掘:在可用数据集的基础上生成新的、非同寻常的信息
    数据挖掘的基本任务:
    A: 分类,发现某个预测学习功能,将一个数据项分类到几个预定义的类中的一个
    B: 回归,发现某个预测学习功能,将一个数据项映射到一个真实值预测变量
    C: 聚类,一个常见的描述性任务,用于确定有限的一组类别或聚类来描述数据
    D: 总结概括,一项附加的描述任务,涉及用于寻找数据集或子集的简单描述方法
    E:关联建模, 发现一个本地模型,来描述变量之间或者数据集或其一部分的特征值之间的重要相关性
    F: 变化和偏差检测,发现数据集中最重要的变化
    3.数据挖掘的起源
    数据挖掘的统计学方法,统计学起源于数据,因此强调的是数学的精确性,在理论基础上建立某种有意义的的东西,在进行实践,机器学习方法,起源于计算机实践,倾向于实践,主动检测某个东西,来确定它表现的好坏
    主要区别:
    对数学性和形式化的重视程度不同,以及模型和算法的相对重要性
    数据挖掘中的基本建模方法起源于控制理论,观察未知系统的输入输出信息,以确定其数学模型的过程叫做系统识别
    系统识别主要包括两个步骤:
    A: 结构识别 B:参数识别
  2. 数据挖掘的过程
    定义:数据挖掘是从已知的数据集合中发现各种模型、概要和导出值的过程
    A: 陈述问题,阐明假设
    B: 收集数据
    数据产生过程中在专家的控制下,称为“有计划的实验”,第二种情况是专家不能影响数据产生过程,称为“观察法”,在大多数数据挖掘应用中都采用了观察法,即数据是随机产生的
    C: 预处理数据
    异常点的检测(和去除),异常点是和大多数观察值不一致的数据值,异常点是由测量错误、编码和记录错误产生的,又是也来自于自然地异常值
    a. 检测并最终去除异常点,作为预处理阶段的一部分
    b. 开发不受异常点影响的健壮性建模方法
    比例缩放、编码和选择特征,数据预处理包括几个步骤,如变量的比例缩放和不同类型的编码,例如一个取值范围为【0,1】的特征,和一个取值范围为【-100,1000】,他们在应用技术中的权重是不同的,对最终数据挖掘结果的影响也不尽相同,因此推荐进行比例缩放,并使他们的权重相同,以进行进一步的分析
    D: 模型评估
    E: 解释模型,得出结论
    数据的预处理阶段应考虑的指标:
    A: 数据应当准确
    B: 应该根据数据类型来存储数据
    C: 数据应完整
    D: 数据要一致
    E: 数据不要有冗余
    F: 数据应当具有时效性
    G: 数据应当能被正确理解
    H: 数据集应该完整
    4.数据仓库
    数据仓库主要包括以下数据类别:这个分类适用于依赖时间的数据源
    A. 过去细节数据
    B. 当前细节数据
    C.轻度综合数据
    D. 高度综合数据
    E. 元数据
    5.把某个数据挖掘应用引入组织,与其他软件应用项目没有什么大的区别,也必须满足一下条件
    A: 必须有一个明确定义的问题
    B: 数据必须是可用的
    C: 数据必须是相关的、适当的、干净的
    E: 应不能仅通过一般的查询或OLAP工具来解决问题
    F: 结果必须是可操作的

  3. “熟悉数据”需要对数据进行认真的分析,包括数据源、数据的拥有者、负责维护数据的组织、成本、存储结构、记录和属性数、字节数、安全要求,使用限制和隐私要求

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值