前言
本章主要讲解了SPSS进行数据预处理,主要包括了数据的排序、查找重复个案、变量计算、个案选取、个案内值的计数、分类汇总、数据分组、数组转置、加权处理以及数据拆分等内容。
一、数据预处理
1.1数据的排序
- 排序在数据分析中的作用:快速找到可能的离群点;一些操作需要排序作为前提(如:文件的合并)
- 将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列
(1)排序次序:升序、降序
(2)多重排序:选择变量名的次序很关键
示例1
(1)数据说明:使用【职工数据】(数据已上传资源,需要请自行下载)
(2)需求:先以【职称】降序排序,再以【基本工资】升序排序
(3)操作:点击【数据】-----【个案排序】
示例2
(1)数据说明:使用【大学生职业生涯规划】(数据已上传资源,需要请自行下载数据链接在此)
(2)需求:先以【专业分类】升序排序,再以【Q5毕业后意向】降序排序
(3)操作:点击【数据】-----【个案排序】
1.2查找重复个案
- 通常在分析数据时,不应当出现关键变量(如:编号)相同的个案
- 如果出现重复的个案,主要原因可能是数据录入时的疏忽或者不合理的编码等
- 在处理的数据量比较大的时候,自动查找其中的重复个案是必要的
示例1
(1)数据说明:使用【职工数据】,该数据是经过纵向合并后的数据,纵向合并内容在SPSS学习3
(2)需求:查找重复的个案
(3)操作:点击【数据】-----【标识重复个案】
1.3变量计算
-
根据用户给出的SPSS算术表达式,对所有或部分样本数据进行加工,产生新变量或对原变量进行必要的转换(如:预测问题,产生比率数据,偏态数据的正态处理,时间序列的平稳处理等)
(1)SPSS算术表达式:
由算术运算符(+、-、*、l、**)、SPSS函数以及SPSS变量名组成的式子
(2)SPSS函数 -
包括:算术函数,统计函数,分布函数,逻辑函数,字符串函数,缺关值函数,日期时间函数,其他函数
-
例如:算术函数
-
统计函数
(3)SPSS条件表达式 -
由SPSS关系运算符、逻辑运算符、SPSS函数以及SPSS变量名组成的式子。
关系运算符:>(大于)、<(小于)、=(等于)、~=(不等于)、>=(大于等于)、<=(小于等于)
如: nl>32、sr<=700(“职工数据"案例)
逻辑运算符:&或AND(并且)、|或OR(或者)、~或NOT(非)
如:(nl>32) and (sr<=700)
如:(nl=32) /(sr<>700)
如: not xb=1
示例1
(1)数据说明:使用【大学生职业生涯规划】数据在此
(2)需求:将Q61、Q62、Q63和Q64生成一个新变量(对职业认知的水平)
(3)操作:点击【转换】-----【计算变量】
如果只对某部分进行新变量的生产(如:只对性别为男的生成新变量)可以选择左下角的【如果】进行进一步设置。
1.4个案选取
- 个案选取(数据选取)是从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析
- 个案选取可以提高数据分析效率和检验模型
- 个案选取的方法包括:
(1)按条件选取
(2)随机选取
(3)选取指定区间中的样本 - 个案选取之后的操作都针对选出的数据进行
示例
(1)数据说明:使用【大学生职业生涯规划】
(2)需求:对Q3(有没有参加职业规划课程的指导)进行个案选取,将没有参加过的同学去掉
(3)操作:点击【数据】-----【选择个案】
1.5个案内值进行计数
- 对所有或部分个案,计算若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中
- 指定需要参与计数的变量
- 计数的结果存入的新变量由用户设定
- 指定计数区间是一个关键步骤。在SPSS中,单个变量值、系统缺失值,给定最大值和最小值的区间等,都属于计数区间。
示例
(1)数据说明:使用【大学生职业生涯规划】
(2)需求:将Q61到Q616所以都统计(回答为0的数据),放到新的变量中
(3)操作:点击【转换】-----【对个案中的值进行计数】
1.6分类汇总
- 按指定的分组变量值对样本分组
- 分别计算各组中汇总变量的基本统计量
例:对比男女职工的平均年龄和平均工资
示例
(1)数据说明:使用【大学生职业生涯规划】
(2)需求:x1(专业和职业认知得分)
(3)操作:点击【数据】-----【汇总】
1.7数据分组
- 目的是为了更好地了解连续型变量的分布特点
- 方法是进行组距分组:
(1)指定按哪个变量分组
(2)定义分组区间(不重不漏)
(3)指定存放分组结果的组标志变量
示例
(1)数据说明:使用【大学生职业生涯规划】
(2)需求:专业和职业认知得分进行分组 - x1=“专业和职业认知得分”=Q61+Q62+Q63+Q64
Q61、Q61、Q63、Q64的值分别介于O-5分
X1的值介于0-20之间
如果出现一个缺失值,则不进行运算 - 对X1进行分组,组距为5,设定:
X1<5→1
5<X1<10→2
10<X1<15 →3
X1>15→4 - 之后,可以对分组结果进行频数分析,绘制直方图等。
(3)操作:点击【转换】----【重新编码为不同变量】
(4)频数分析 :【分析】----【描述统计】-----【频率】
1.8数据转置
数据转置:将数据编辑器窗口的数据行和列进行交换
(1)数据说明:使用【职工数据】
(2)需求:实现行和列的交换
(3)操作:点击【数据】-----【转置】
1.9加权处理
统计分析中的加权处理极为常见,如计算加权平均数等。
再如,网站为调查观众对春节联欢晚会是否满意,采用了在线打分的调查形式。假如10%的观众打了5分,25%的观众打了4分,40%的观众打了3分,25%的观众打了2分,那么该如何利用这些分数进行分析评价呢?显然可以利用加权平均来分析,其中各百分比作为权数。
(1)数据说明:使用【血压和年龄】
(2)需求:对人数进行加权
数据打开后,观察右下角,可以看到,打开的数据已经加权处理过,我们要做加权处理时,需要先取消
(3)操作:点击【数据】----【个案加权】
- 第一步,先取消加权,确定后,右下角“权重开启”消失
- 第二步:加权操作,对人数加权,确定后,在右下角可以看到“权重开启”
(4)加权后的数据有什么用?---------可以做交叉表
操作:点击【分析】-----【描述统计】----【交叉表】
如果取消对人数的【个案加权】,进行交叉表,则结果不理想
1.10数据拆分
- 对数据进行排序
- 同时对数据进行了分组
- 为以后的分组统计分析提供便利
- 如果希望对所有数据进行整体分析,需要重新取消对数据拆分。
示例
(1)数据说明:使用【职工数据】
(2)需求:对【zc】(职称)进行拆分
(3)操作:点击【数据】----最下面的一个【拆分文件】,完成后可以在右下角看到出现“拆分依据zc”