数据预处理--数据清洗、集成、变换、规约

本文介绍了数据预处理的关键步骤,包括数据清洗的缺失值和异常值处理,如删除记录、插补方法;数据集成涉及实体识别和冗余属性识别;数据变换包括简单函数变换、归一化、连续属性离散化等;最后讨论了数据规约的属性规约和数值规约。
摘要由CSDN通过智能技术生成

笔记来源《Python数据分析与挖掘实战》0~

数据清洗

主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与目的无关的数据,处理缺失值、异常值等。

缺失值

处理的方法一般有三种:删除记录、数据插补、不处理。直接删除会浪费和丢弃大量隐藏的信息,可能会影响到分析结果的客观性和正确性。

常用的插补方法有:

  • 均值、中位数、众数插补
  • 用固定值,如官方出具的一些标准数据
  • 最近邻插补
  • 回归插补,如建立模型来拟合已有数据
  • 插值法,如拉格朗日插值法、牛顿插值法、分段插值法等,其中拉格朗日法在python的Scipy库中有现成的函数可以调用1,牛顿插值法就需要自己编写代码了。

异常值

异常值处理的方法主要有:删除记录、将其视为缺失值【这样可以利用已有的信息来填补】、用平均值修正、不处理【直接在有异常值的数据集上建模】。

数据集成

数据集成即:将多个不同的数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。
因为数据往往分布在不同的数据源中, 来自多个数据源的现实世界实体的表达形式不一样,有可能不匹配,所以要考虑实体识别问题属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。

实体识别

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值