1、数据质量评价指标
数据质量评价指标宝库奥准确性、完整性、简洁性以及实用性。其中适用性是评价数据质量的重要标准。
2、数据质量的问题分类
- 基于数据源的“脏”数据分类
- 基于清洗方式就的“脏”数据分类
3、数据清洗的定义
数据清洗技术是提高数据质量的有效方法。数据清洗主要应用于3个领域,及数据仓库领域、数据挖掘领域以及数据质量管理领域。
3、数据清洗的基本流程
1.数据分析
数据分析是数据清洗的前提与基础。
2.定义数据清洗的策略和规则
根据数据分析出的数据源个数和数据源中的“脏”数据程度定义数据清洗策略和规则,并选择 合适的数据清洗算法。
3.搜索并确定错误示例
搜寻并确定错误实例步骤包括自动检测属性错误和检测重复记录的算法。
4.纠正发现的错误
根据不同的“脏”数据存在形式的不同,执行相应的数据清洗和转换步骤解决原始数据源中存 在的质量问题。需要注意的是,对原始数据源进行数据清洗时,应该将原始数据源进行备份, 以防需要撤销清洗操作。
5.干净数据回流
当数据被清洗后,干净的数据代替原始数据源中的“脏”数据,这样可以提高信息系统的数据 质量,还可以避免将来再次抽取数据后进行重复的清洗工作。
4、数据清洗的策略
目前数据清洗的策略主要分为一般的数据清洗策略和混合的数据清洗策略。
一般的数据清洗策略:(1)手工清洗策略;
(2)自动清洗策略;
(3)特定应用领域的清洗策略;
(4)与特定应用领域无关的清洗策略。
混合的数据清洗策略:混合的数据清洗策略主要以自动清洗为主。
5、常见的数据清洗方法
1.缺失值的清洗方法主要分为两类:忽略缺失值数据和填充缺失值数据。
2.重复值的清洗方法:相似度计算以及基于基本近邻排序算法
3.错误值的清洗
错误值的清洗的方法主要包括使用统计分析的方法识别可能的错误值、使用简单规则库检测出错误值、使用不同 属性间的约束以及使用外部数据等方法检测和处理错误值