前言
数据预处理在数据分析中是至关重要的步骤,它包括清理、转换和整理原始数据,以确保数据质量和可用性。在数据预处理的过程中包含以下几种处理方式,包含了具体操作步骤以及各个步骤的解释。具体包括10个步骤:数据的排序、查找重复个案、变量计算、个案选取、个案内值的计数、分类汇总、数据分组、数据转置、加权处理、数据拆分。上一篇文章写对前5个步骤的描述,这次分享后5个步骤。
6、分类汇总
- 按指定的分组变量值对样本分组
- 分别计算各组中汇总变量的基本统计量
- 操作:数据-汇总-分界变量(用来分类的变量)-汇总变量(默认均值,需要改的话点函数),可以设置名称与标签。
7、数据分组
- 目的是为了更好地了解连续性变量的分布特点
- 方法是进行组距分组(组距分组比如基本工资在850元及以下,851-900,901-950,951及以上)
- 指定按哪个变量分组
- 定义分组区间(不重不漏)
- 指定存放分组结果的组标志变量(由用户自己设置)
- 操作:转换-重新编码为不同变量-数字变量到输出变量-设置输出变量的名称和标签-点击旧值和新值进行设置
8、数据转置
- 数据转置实际上就是将数据编辑器窗口中的数据行列转换
- 操作:数据-转置-名称变量(用来排序的,若不选名称变量,软件会自动给出一组变量)-将其余变量放置到变量中。
9、加权处理
- 例如,网站为调查观众对春节联欢晚会是否满意,采用了在线打分的调查形式。假如10%的观众打了5分,25%的观众打了4分,40%的观众打了3分,25%的观众打了2分,那么该如何利用这些分数进行分析评价呢?显然可以利用加权平均来分析,其中百分比作为权数。
- 操作:数据-个案加权-个案加权系数选择频率变量(数据表中看不出来右下角会有权重开启)。进行加权处理后可以进行交叉表分析。
- 注意:做完加权之后文件会一直处于加权状态(查看右下角状态栏),需要手动取消加权。数据-个案加权-选择不对个案加权。
10、数据拆分
- 对数据进行排序
- 同时对数据进行分组
- 为以后的分组统计分析提供便利
- 如果希望对所有数据进行整体分析,需要重新取消对数据拆分。
- 操作:数据-拆分文件-分析所有个案,不创建组(即取消数据拆分);比较组,选择拆分依据(右下角状态栏会显示拆分依据)。
- 数据拆分后可进行统计分析