前言
机器零件的产生,要在把矿石冶炼成铁锭的基础上,再进行进一步加工,才能得到机器零件。在数据挖掘中,数据预处理就对应把矿石冶炼成铁锭的过程。数据预处理是把无法直接用于分析的脏数据进行数据清洗、数据转换、数据采样、数据标准化等操作。解决实际问题时,数据预处理可能要花费完成整体过程的70%的精力,是数据挖掘中最重要的步骤之一。
一、数据缺失问题
缺失原因
1.客观原因:体检设备坏了,整行整列缺失
2.数据未被提供:隐私数据
3.正常情况下不适用的数据:男女体检项目不同、学生工资
缺失类型
1.完全随机缺失:风把卷子刮走几张
2.不完全随机缺失(与属性有关):女生不愿意填体重
3.非随机缺失:收入复杂的人不愿填收入
处理方式(more art than science)
1.无视:对整体数据影响不大的数据
2.填数据:重新采样数据/专业知识推测/统一填值(e.g.填均值*正态分布)
二、离群点问题
1.离群点对平均值问题影响很大(e.g.最