SPPS数据预处理方法
处理方式一:排序
目的:了解数据的取值、缺失值情况、最大值、最小值、初步把握数据的离散程度
方式:个案单值排序+个案的多值排序,注意排序的方向可以混合(升降混合)
处理方式二:变量计算
目的:对部分或者所有个案进行计算,产生新的变量,相当于对原有数据进行转换
注意:结果保存的数据类型和计算结果的类型相同
方式:算数表达式(计算)、条件表达式(是否满足条件)、函数(类似于方法)
处理方式三:数据的选取
目的:选取样本进行分析
方式:按照指定的条件选取+随机抽取(近似抽样+精确抽样)
结果:产生新的变量,1:选中;0:未选中
处理方式四:计数
目的:满足条件的个案中,若干个变量的几个值落在指定区间内,把计数结果存储新的变量
方式:单个变量值(值为1的数),
处理方式五:分类汇总
目的:先分类在汇总计算(分类变量+汇总变量)
方式:按照户口进行分类,在对工资进行平均
处理方式六:数据分组
目的:对数据进行分组
方式:单变量值分组(=1,适用于离散较少)+组距分组(重新编码为相同(覆盖)、不同变量(单独创建一个变量))+分位数分组
思想:对原始数据按照某种规则重新分组,如按照身高分为 (高低)
处理方式七:数据转职
目的:行列转换,相当于矩阵的转置
处理方式八:加权处理
加权个案相当于对数据进行汇总(理解还不深)
处理方式九:数据拆分
注意影响后续的计算,分析时按照不同的组别进行分析的。
统计分析时按照拆分的结构进行分析,当要重新分析全部的数据,需要重新设置拆分设置。
数据分析中的数据预处理
## 预处理要解决的问题
-
缺失值和异常数据的处理
-
数据的转换处理
-
数据抽样
-
选取变量
源数据存在的问题
存在缺失值