数据清洗:对获取的原始数据中的缺失值进行填补,分析数据中是否存在离群点,对噪声数据进行平滑等,并利用适当的技术对这些“脏数据”进行清洗,提高数据的质量。
数据集成:将来自不同数据源的数据进行合并,去除可能存在的冗余数据,保证数据的一致性。
数据变换:对数据进行规范化处理,将数据转换为有利于数据挖掘的形式。
数据规约::将数据集转换为相对简单的形式。若需要对离散型数据进行挖掘需要先将连续型数据量化
数据预处理的其他功能:转置、加权、数据拆分等。
预处理的内容:
-
数据的排序
SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。
排序变量只有一个时,排序称为单值排序。排序变量有多个时,排序称为多重排序。
多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等。
SPSS数据排序的基本操作步骤
(1)选择菜单Data-Sort Cases
(2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。
(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。
-
变量计算:
数据的转换处理是在原有数据的基础上,计算产生