题目:对 CCSS_Sample中的总指数、现状指数和预期指数进行标准正态变换,对变换后的变量进行统计描述。
数据文件:CCSS_Sample.csv
本篇文章小玥各位学习SPSS软件里面的标准正态变换!!!
目录
1、先对总指数、现状指数和预期指数进行统计描述,求出各指标的平均值和标准差。
2、计算变量,进行标准正态变换,公式:(原数据-平均值)/标准差,并存储为新变量new_index1, new_index1a, new_index1b
一、前言
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。
SPSS 26 资源及安装教程http://t.csdn.cn/VECZ2想了解该软件的朋友可以先看看上面的文章哦!!!
二、题目分析
1、分析:
题目中给出一个数据表:CCSS_Sample.csv,我们需要对数据表中的三个指标总指数、现状指数和预期指数进行标准正态变换。然后对变换后的变量进行统计描述。
题目的意思很简单,明确目标后,进行下一步!!!
上图为数据文件的三个变量,为题目所求。
2、何为标准正态转换?为什么要变换?
原因:
数据挖掘过程中,不同变量数据单位不一,比如,我们想知道一个人身体健康状况,其身高是170cm,体重是60kg,视力是2.5,心跳是80/min,这些指标都是描述一个人身体状况的数据,我们对这指标进行单独的分析,不会产生错误。但是,一起分析就会产生错误,由于单位的不同,指标之间不能进行比较,这些单位不同指标会对建模的准确度有一定影响。
因此,在数据挖掘之前,我们要对数据做标准化处理。
另外,我们还需要对数据做一定的变换,比如使其接近正态分布,这样从数据形式上可以对问题有更好的解释。
而数据的标准化方式也有很多种,本题我们使用的是标准化(z_score规范化)