数据预处理概念

数据预处理:对原始数据进行必要的清理、集成、转换、离散和规约等一系列的处理工作。

原始数据的特征:

(1)不完整性:数据属性的丢失、不确定的情况、缺失必需的数据。

(2)含噪声:数据具有不正确属性值:包含错误或存在偏离期望的离群值。

产生原因:如收集数据的设备故障,人或计算机的错误可能在数据的输入时出现,数据传输中可能出现错误。

(3)杂乱性:原始数据是从各个实际应用系统中获取的。由于各应用系统数据缺乏统一的标准的定义。


1.数据清理:填补遗漏的数值、平滑有噪声数据、识别或去除异常值以及解决不一致问题。

2.数据集成:将来自多个数据源的数据合并在一起,形成一致的数据存储,如将不同数据库中的数据集成到一个数据仓库中存储。

3:数据变换:将数据转化成适合挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。(方法:平滑处理、聚集处理、数据泛化处理、规格化、属性构造)

4 数据规约:在不影响挖掘结果的前提下,通过数据聚集、删除冗余特性的办法压缩数据,提高数据挖掘的质量,降低时间复杂度。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值