数据预处理
一,数据质量
数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。
二,数据预处理的任务
(1)数据清理
1,缺失值
方法:忽略元组;人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心度量填充缺失值;使用与给定元组同一类的所有样本的属性均值或中位数;使用最可能的值填充。
2,噪声数据
噪声是被测量的变量的随机误差或方差、
方法:
分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑
回归:用一个拟合函数来光滑数据
离群点分析:可以通过聚类来检测离群点
(2)数据集成
1,实体识别问题
来自多个信息源的现实世界的等价实体如何才能“匹配”?
2,冗余和相关分析
冗余是数据集成的一个重要问题,一个属性如果能由其他属性“导出”,那么这个属性就很可能是冗余的。有些属性可以由相关分析检测出来。
标称数据的χ2相关检验
假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br