数据清洗
数据清洗主要是删除原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
缺失值处理
处理缺失值的方法可分为三类:删除记录、数据插补和不处理。常见的插补方法如下图所示。
插补方法 |
方法描述 |
均值/中位数/众数插补 |
根据依据属性值的类型,采用属性的均值/中位数/众数插补 |
固定值插补 |
数据清洗主要是删除原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
处理缺失值的方法可分为三类:删除记录、数据插补和不处理。常见的插补方法如下图所示。
插补方法 |
方法描述 |
均值/中位数/众数插补 |
根据依据属性值的类型,采用属性的均值/中位数/众数插补 |
固定值插补 |