4.1 数据清洗
数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据,处理缺失值、异常值等
4.1.1 缺失值处理
- 删除记录、数据插补、不处理
- 插补方法:
- 均值/中位数/众数插补
- 使用固定值
- 最近邻插补
- 回归方法
- 插值法:拉格朗日插值法、牛顿插值法、hermite插值法、分段插值、样条插值法
4.1.2 异常值处理
- 删除含有异常值的记录
- 视为缺失值
- 平均值修正
- 不处理
4.2 数据集成
4.2.1 实体识别:
- 同名异义
- 异名同义
- 单位不统一
4.2.2 冗余属性识别
4.3 数据变化
4.3.1 简单函数变换
- 用来将不具有正态分布的数据变化成具有正态分布的数据
- 平方、开方、取对数、差分运算
4.3.2 规范化
- 消除指标之间的量纲和取值范围差异的影响
- 最小-最大规范化
- 零-均值规范化
- 小数定标规范化
4.3.3 连续属性离散化
- 离散化方法:等宽法、等频法、基于聚类分析
4.4 数据规约
4.4.1 属性规约
- 通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减小维数
- 合并属性
- 逐步向前选择
- 逐步向后删除
- 决策树归纳
- 主成分分析
4.4.2 数值规约
- 直方图、聚类、抽样、参数回归