数据预处理的主要内容
笔记来源《Python数据分析与挖掘实战》0~
数据清洗
主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与目的无关的数据,处理缺失值、异常值等。
缺失值
处理的方法一般有三种:删除记录、数据插补、不处理。直接删除会浪费和丢弃大量隐藏的信息,可能会影响到分析结果的客观性和正确性。
常用的插补方法有:
- 均值、中位数、众数插补
- 用固定值,如官方出具的一些标准数据
- 最近邻插补
- 回归插补,如建立模型来拟合已有数据
- 插值法,如拉格朗日插值法、牛顿插值法、分段插值法等,其中拉格朗日法在python的Scipy库中有现成的函数可以调用1,牛顿插值法就需要自己编写代码了。
异常值
异常值处理的方法主要有:删除记录、将其视为缺失值【这样可以利用已有的信息来填补】、用平均值修正、不处理【直接在有异常值的数据集上建模】。
数据集成
数据集成即:将多个不同的数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。
因为数据往往分布在不同的数据源中, 来自多个数据源的现实世界实体的表达形式不一样,有可能不匹配,所以要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。