数据挖掘之数据归约

  1. 对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果,
    2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据
    3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可用于分析,就需要进行恰当的维归约,以挖掘出可靠的模型或使其具有实用性,,另一方面,由高纬度引起的数据超负,会使一些数据挖掘算法不可用,唯一的方法是再进行维归约
    4.数据归约过程的3个基本操作是删除列、删除行、减少列中值的数量(平整特征)
    在准备数据挖掘时,要执行标准的数据归约操作,需要分析一下参数:A:计算时间 B:预测/描述精度 C: 数据挖掘模型的描述
    5.数据归约算法的推荐特性
    可测性
    应用已归约的数据集可精确的确定近似结果的质量
    可识别性
    在应用数据挖掘程序之前,数据归约算法运行期间,很容易确定近似结果的质量
    单一性
    算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
    一致性
    计算结果的质量和计算时间及输入数据质量有关
    收益递减
    方案在计算的早期能获得大的改进,但随时间递减
    可中断性
    算法可以随时停止,并给出答案
    优先权
    算法可以暂停并以最小的开销重新开始
    6.特征归约
    高维数据可能包含许多不相关的干扰信息,显著降低了数据挖掘过程的性能,甚至一流
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值