5、 数据分析的神器
@Author:By Runsen
大数据时代,需要工具实现数据可视化,这些工具中不乏有SPSS、Stata,Tableau。
5.1 SPSS
SPSS(Statistical Product and Service Solutions),统计产品与服务解决方案”软件,基于Java开发。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。SPSS优点:windows风格界面极为友好,易学易用的统计分析以及功能全面的统计分析。
SPSS有两款工具叫SPSS Statistics和SPSS Modele。SPSS Statistics上方的工具栏非常强大,只要我们能够了解并掌握,我们就能够在这里面完成绝大多数的数据分析工作。SPSS Modeler,这是一款主要进行数据挖掘的工具。
SPSS Modeler和SPSS Statistics是SPSS中的“哼哈二将”,一个负责统计分析,一个负责挖掘。本章主要使用的是SPSS Statistics。
SPSS下载连接:https://www.ibm.com/cn-zh/analytics/spss-statistics-software?lnk=hmhmmpr_bua_cnzh
5.1.1 SPSS界面功能
SPSS基本界面包括:数据编辑窗口、结果输出窗口、对象编辑窗口、语法编辑窗口和脚本编写窗口。使用SPSS比较常用的“数据编辑窗口”和“结果输出窗口”
(1)数据编辑器窗口
下面是数据编辑器窗口功能介绍
-
标题栏:用于定义文件,数据处理的标题内容
-
菜单栏:重要的功能按钮,SPSS数据分析的核心
-
常用工具栏:方便快捷方式
-
数据编辑和显示区域:如Excel,可对单元格中的内容进行输入和编辑,是数据编辑和文件导入后显示的区域
-
视图转换按钮:可以在数据和变量之间进行自由切换
-
状态栏:显示数据处理的状态。
菜单栏下的每个按钮控件具体功能如下表所示
菜单栏 | 功能 |
---|---|
文件 | 新建,打开,保存文件,对数据库进行查看编辑 |
编辑 | 对数据编辑撤销,复制,粘贴,插入变量和个案 |
查看 | 选择是否显示状态栏,工具栏,网格线,标签值 |
数据 | 对数据进行操作,比如:定义变量属性,定义时间和日期, 定义多重相应集,标识重复个案,标识重复个案,排序,拆分文件 |
转换 | 计算变量,重新编码生成新变量,替换缺失值,可视化箱等 |
分析 | 描述,生成报告(OLAP),因子分析,聚类分析,生存分析,回归分析等(新版将旧版营销放在此菜单栏) |
图形 | 做一般图形,回归变量图,威布尔图等 |
实用程序 | 查看变量信息,定义变量宏,脚本运行 |
扩展 | 对实用程序进行扩展 |
窗口 | 窗口最小化,拆分以及窗口之间切换 |
(2)数据视图
顾名思义,就是指可以直观地看到自己要处理的数据。其形如Excel,界面也是很美观的,如下图5-2所示。
(3)变量视图
变量视图是对数据视图中的各个变量数据的属性进行定义,主要包括:名称、变量类型、宽度、小数位数、标签、值、是否缺失值、列宽、对齐方式测量尺度、角色定义等,如下图5-3所示。
(4)结果输出窗口
在常用工具栏中点击运行描述统计,我们可以看见结果输出窗口,即是对数据执行后的结果、表格、图形、报告、出错提示等的存放。可直接进行复制、粘贴到Excel或者Word文档中,保存的格式是*.spv,如下图5-4所示。
相对于“数据输出窗口”,结果输出窗口菜单栏上多了“插入”和“格式”两个操作控件,可以对输出的格式进行设置。还有一个直观的不同就是,左侧方会有一个独立的目录框架图,用于显示运行的功能。
5.1.2 数据的读取
(1)Excel 数据导入和保存
首先将需要导入的Excel文件放到电脑中易于找到的位置。
Step 1:打开SPSS,点击【文件】,然后点击【打开】,选择【数据】,弹出【打开数据】窗口
Step 2:在【文件类型】处的下拉菜单中选择【Excel(*.xls,*xlsx,*xlsm)】项,在【文件名】处选择【查找范围】,找到所需要导入的Excel文件,点击【打开】,弹出【打开Excel数据源】窗口
Step 3:在【打开Excel数据源】窗口里,可以根据自己的需要设置相关参数,设置完毕后,点击【确定】,如下图5-5所示。
Step 4:点击【文件】,选择【保存】或【另存为】,弹出【将数据另存为】窗口,在【查找位置】处可设置文件保存位置,自己命名【文件名】,这里命名为students,【保存类型】默认为【SPSS Statistics(*spv)】,即SPSS数据文件格式,如需存为其他格式则可在下拉菜单中进行选择。点击【确定】即可,如下图5-6所示。
文本数据和数据库数据导入和保存操作相同
5.1.3 计算变量
利用SPSS进行数据分析时,有时候我们会发现现有的数据无法满足实际需求,那这就需要我们在原始数据的基础上做进一步处理,需要使用SPSS中“计算变量”功能春节新的变量。
打开了“学生三门课程成绩.sav”的数据。在学生三门课程成绩.sav,有数学成绩,英语成绩,语文成绩,现在通过计算计算变量计算平均分。
Step1:打开数据,点击【转换】,选择【计算变量】。
Step2:首先,在【目标变量】框中输入一个新变量名或者已经存在的变量名,比如输入“平均成绩”。然后,根据实际需求选择函数组下的函数类型,比如本例中,我们选择“统计”函数下的“Mean”表达式去求均值。
Step3:把需要用的变量双击至右边“数字表达式”中,结果如下图5-7所示。
完成了以上步骤后,点击“确定”,就可以得到我们想要生成的新变量了.
计算变量窗口下面,还有一个“如果”按钮吗?我们可以通过“如果”求出A班女生的三门平均成绩,
Step1:创建的目标变量为“女生平均成绩”
Step2:点击【如果】,弹出窗口“计算变量:if个案“
Step3:将【性别】变量双击到右边【在个案满足条件时包括】,设定“性别=2”,表示女生。然后点击【继续】,如图5-8所示。
最后按照创建平均分的方法创建“女生平均成绩”计算变量,最终结果如5-9所示
5.1.4 个案计数和加权
(1)个案计数
“对个案中的值进行计数”的过程用于标识某个变量的取值中是否出现某个数值,可以使单个数值,也可以指定区间,并且可以给出条件,不必对整个数据集进行操作。
通常我们在前期整理数据的过程中会遇到需要对满足某一个观测条件的值进行统计:例如在“教师满意度评分.sav”中需要计算出每个教师得到“满意”等级的分数的个数,评分需要大于等于8分才算满意。
Step1:在菜单栏中选择【转换】,在下拉菜单中选择【对个案中的值进行计数】,如5-10所示,之后弹出【计算个案中值的出现次数】窗口
Step2:我们要统计的是每位老师得到的“满意”等级的评价的个数,因此这里的目标变量为“满意度”;将左侧变量栏中需要进行计数的变量名选入右边的【变量】窗口中,此处将所有老师全部拉入右边,如下图5-11所示
Step3:选中【定义值】,弹出【对个案中的值进行计数:要计数的值】对话窗,我们选择的是【范围,从值到最高】,输入:8。这样8分到最大值为“满意”等级,并点击【添加】,如下图5-12所示
设置完计数范围后,点击【继续】按钮,返回上一级对话窗口
Step4:在【计算个案中值的出现次数】对话窗中选中【如果】按钮,弹出【计算出现此数:If个案】,选择【包括所有个案】→点击【继续】,如下图5-13所示
最后,点击【确定】,返回数据视图查看结果,第一行数据存在4个大于等于8的数值,因此满意度为4,如下图5-14所示
(2)个案加权
“权”的含义为“权重”,可以通俗地理解为所占的比重或所拥有的系数。
加权个案是指以某个频数变量,对数据集当中的不同个案附以不同权重,以改变个案在统计分析中的重要性。
在“过年回家吗.sav”简单使用个案加权,数据如下图5-15所示
Step1:在菜单栏中选择【数据】,在下拉菜单中选择【个案加权】,弹出个案加权窗口,勾选“个案加权系数”,将“人数”选入频率变量中,点击“确定”按钮,如下图5-16所示
至此,加权工作已经完成。那么,加权与否有何影响呢?接下来,通过输出交叉表比较加权前后的区别。
Step2:在菜单栏中选择【分析】,在下拉菜单中选择【描述统计】中的【交叉表】,弹出交叉表设置窗口,将“是否回家”选为行变量,“性别”选为列变量。点击“确定”按钮,如下图5-17所示
在输出查看器中查看交叉表,如下图5-18所示
我们可以取消加权,输出交叉表,如下图5-19所示
通过对比可以看出:加权前,只将一行数据当做一个观测量进行交叉表分析;加权后,各行数据对应的“系数”(或者说“比重”)会纳入交叉表分析之中。在进行频率分析,需要先完成个案加权,避免出错。
数据集
数据集下载:练习文件都在码云上:
https://gitee.com/MaoliRUNsen/data_analysis_series.git
在SPSSl文件夹中