@Author : By Runsen
@Date:2020/5/14
在2020年一月初,也是我大三上的寒假,我开始写书,为什么呢?因为化工原理和化工热力学挂了,我需要重拾自己的自信。
对于一个大学三年,每天往死里干的人,竟然挂了两科。
虽然,我化工专业已经陷入了绝境,大学我主要学习日语,Python,Java和一系列数据分析软件。
所以本专栏数据分析将使用Excel,Powerbi,Python,R,Sql,SPSS,stata以及Tableau,后面还会补充BI。
第五章应该是二月份上完成的。
5.5 数据汇总和图表制作
5.5.1 数据汇总
数据汇总指根据指定的分界变量对其观测值分组并求出指定的描述统计量。比如求两个班级男生和女生的数据成绩平均分,下面在“数学成绩汇总.sav”简单使用数据汇总,部分数据如下5-20所示
Step1:在菜单栏中选择【数据】,在下拉菜单中选择【汇总】,在弹出的【汇总数据】窗口【分界变量】选入性别,【变量摘要】选入数学成绩,如下图5-21所示
在数据视图出现一个新变量,数学成绩_mean。男生的数学平均成绩为79.47,女生的数学平均成绩为74.60,结果如下图5-22所示。
5.5.2 图表制作
图表构建器是SPSS中创建图表的入口,通过图表构建器可以创建条形图、折线图、面积图、饼图/极坐标图、散点图/点图、直方图、盘高-盘低图、箱图、双轴图等多种图表。
比如,我们现在用”数学成绩汇总.sav“制作简单直方图
step1:在菜单栏中选择【图形】,在下拉菜单中选择【图表构建器】,在弹出的【图表构建器】窗口,选择直方图,选择简单直方图,双击,如下图5-23所示
我们可以看见,在图表构建器直方图中提供了四种图形:简单直方图、堆积直方图、频率多边形图、总体锥形图。最常用的为简单直方图,现阶段我们只需掌握此图形即可。
Step2:将数学成绩移入图形的X轴,y轴为相应的频数。在【元素属性】中,勾选显示正态曲线。通过图形与正态曲线的拟合程度,分析其分布形态,最后,点击【确认】,如下图5-24所示
同样的方法,我们可以绘制折线图,饼图,饼图,条形图,箱图和散点图
5.6 频率分析和描述分析
5.6.1 频率分析
频率分析主要利用统计和图表来反映数据的分布特征,比如有频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量(比如平均值、中位数、偏度和峰度等),我们可以通过频率分析对要分析的数据做出一个初步的了解和判断。下面在“消费数据.sav”简单使用频率分析,部分数据如下图5-25所示
Step1:在菜单栏中选择【分析】,在下拉菜单中选择【描述统计】,在弹出的【频率】窗口中,将变量“年龄”移至右侧【变量】中,如下图5-26所示
Step2:点击右上的【统计】,弹出【频率:统计】窗口,我们可以选择需要的统计量,如图5-27所示。
Step3:点击【继续】,返回频率窗口,单击【图表】,弹出【频率:图表】窗口,选择相应选项,这里选择“直方图”,并勾选“在直方图中显示正态曲线”复选框,如图5-28所示。
最后点击“确定”,得出频率分析结果,结果如图5-29所示。
5.6.2 描述分析
在数据分析之前,一般要对数据进行一些描述性的工作,通过操作SPSS的一些操作可以得出一些描述性统计量,比如均值、方差、标准差。
Step1:在菜单栏中选择【分析】,在下拉菜单中选择【描述统计】,在弹出的【描述】窗口中,将分类变量和“年龄”移至右侧【变量】中,如下图5-30所示
Step2:点击右上的【选项】,弹出【描述:选项】窗口,我们可以选择需要的统计量,如下图5-31所示。
点击【继续】,返回描述窗口,勾选“将标准化值另存为变量”,最后点击“确定”,得出描述分析结果,结果如下图5-32所示。
数据集
数据集下载:练习文件都在码云上:
https://gitee.com/MaoliRUNsen/data_analysis_series.git
在SPSSl文件夹中