统计学基础(三)—数据的概率分布与差异检验方法

1 四种数:

  1. 平均值:看某一组数据的平均情况(注:平均数对异常值的敏感程度太低,其结果往往很有争议)
  2. 四分位数:用来比较不同类别数据的整体情况;通过箱线图可以用来检验出异常值
  3. 标准差:用来衡量数据的波动大小
  4. 标准分:用来描述某数值的相对排名,用不同数据集间的比较。

2 二项分布:

  • 特点:一件事情只有两种结果(发生或不发生;正面或反面);每一次发生的概率是相等的;重复进行n次实验。
  • 概率计算公式:p为发生的概率;n为实验的总次数;x为n次实验当中某事发生的次数
    在这里插入图片描述
  • 期望计算公式:np(意义:可以计算出平均每次发生某事的概率有多大)
  • 方差计算公式:np(1-p)

3 几何分布:

  • 特点:结果只有两种,要么发生,要么不发生;重复做n次实验(n>=1);每次成功的概率相等;一次发生即停止(计算第一次获得成功的概率有多大);
  • 计算公式:p表示发生的概率;x表示实验的总次数
    在这里插入图片描述
  • 期望计算公式:1/p 表示大概要几次才可以获得第一次成功

4 泊松分布:

  • 作用:可以计算某个时间段内发生某件事情x次的概率有多大
  • 特点:事件是独立的;在任意相同的时间范围内,事件发生的概率相同;目标是想知道某个时间段内发生某件事x次的概率有多少。
  • 计算公式:u就是某件事在某一时间段内平均能发生几次;x就是指想要计算一天内发生若干次的概率。例如:想要计算一天内发生10次的概率,那么此时x=10
    在这里插入图片描述

5 正态分布:

在这里插入图片描述

5.1 正态分布概念:

正态分布也可以成为常态分布,是统计学当中一种十分重要的分布。在自然界中也随处可见。正态分布的图像呈现的是一种钟型,标准正态分布是一种以y轴为对称轴的钟形。在实际的数据分析过程当中,我们检验出来的往往是近似与正态分布。只要你观察的东西关联性非常的弱,并且是随机的,让后进行相加。

5.2 正态分布标准差:

  • 作用:从下图我们可以看出离平均值为一个标准差的有68.2%,离平均值2个标准差的有95.5%,离平均值三个标准差的有99.7%。其实这也解释了大多数事情。比如,在社会当中,大多数人的生活水平是聚集在平均值附近的,有一些非常平困的少数,则聚集在左端。而另一些极为富有的少数人则聚集在右端。

在这里插入图片描述

5.3 正态分布偏向:

  • 左偏(负偏态):是指分布图像的峰往右倾斜。
  • 右偏(正偏态):是指分布图像的峰往左倾斜。
    在这里插入图片描述

5.4 如何计算一组数据是否为正态分布:

  • 偏度和峰度:
    偏度>0:右偏(正偏态)
    偏度<0:左偏(负偏态)
    偏的程度:
    Z-score=偏度/偏度标准误:
    Z-score在±1.96之间可认为是服从近似正态分布(在a=0.05的检验水平下)
    Z-score<3:轻度
    7>Z-sore>3:中度
    Z-score>7重度

  • 图像法(P-P图,Q-Q图):依照经验
    在这里插入图片描述
    在这里插入图片描述

  • 计算:
    SPSS操作:
    分析-描述-探索
    小样本:S-W
    大样本:K-S

5.5 转换为正态分布

1、轻度右偏Z-score<3:开平方根
2、中度右偏Z-score>3:取LG10(有可能会矫枉过正,转换后要在一次正态性检验)
3、重度右偏(极端值影响非常大):取倒数
4、左偏:用MAX(X)+1-X转换为右偏,在用右偏的办法。

注:取对数是不会改变数字的意义的,但是更能够反映我们所关心的数据的实质意义。

6 异常值检测:

1、观测两组数据:首先计算两组数据的差值,形成新的一列
在这里插入图片描述

2、对差值进行画箱线图进行检验:
在这里插入图片描述

由上图可见,不存在异常值(°代表数据点与箱子边缘距离大于1.5倍,为异常值,*代表数据点与箱子边缘距离大于3倍,为极端值)。

7 单样本t检验:

  • 目的:
    检测某一组数据离某一个值的差距(比如:想要检测某一个学习高三年级英语成绩与其他学校高三年级英语成绩的平均值之间的差距)。
  • 前提:
    1、观测值为连续变量
    2、观测值不存在显著异常值
    3、观测变量接近正态分布
  • 操作:
    检验值当中输入想要比较的值。
    在这里插入图片描述
  • 结果分析:
    在这里插入图片描述
    本研究的样本量为24,研究对象的身体与体育竞赛适应的均值为18.38±3.201
    在这里插入图片描述

研究对象的身体与体育竞赛适应的与对比的检检查值的差值为4.625。95%的置信区间为-5.98到-3.27。结果显示,研究对象的身体与体育竞赛适应前测的均值与目标检测值的均值存在差异有显著的统计学意义(t=-7.079,p<0.001)。

  • 结果撰写:
    本研究采用单样本t检验判断研究对象身体与体育竞赛适应前测与身体与体育竞赛适应均值是否有差异。研究数据不存在显著异常值,且接近正态分布。结果显示,研究对象身体与体育竞赛适应前测均值为18.38±3.201,与身体与体育竞赛适应前测均值23的差值为-4.625(95%CI:-5.98 to -3.27)。单样本t检验结果提示,研究对象的身体与体育竞赛适应前测均值与身体与体育竞赛适应均值的差异有统计学意义(t=-7.079,p<0.001)。

8 独立样本t检验:

  • 目的:研究两个不同组别的研究对象在不同情况下是否在做某一件事上存在差异(比如,观察用药组和非用药组在经过一个月后,血压状况是否存在高低)。
  • 前提:
    1、观测变量为连续变量
    2、观测变量方差相等
    3、观测变量在各组内近似服从正态分布
    4、观察值之间相互独立
  • 操作:
    在这里插入图片描述
  • 结果分析:
    在这里插入图片描述在这里插入图片描述

左边的那一块是方差齐性检验,先观察方差是否其。可见在方差方程的Levene检验当中F=0.509,P>0.05,可以接受零假设,即方差齐。
再看到右边的一块就是均值方程的t检验。可见身体与体育竞赛适应的后测实验组与对照组之间的差距大概为2.5。t=1.884,P>0.05,可见实验组与对照组之间的差距不具有统计学意义(此时犯I类错误的风险比较大,因此接受零假设,即实验组与对照组之间无显著差异)

  • 结果撰写:
    本研究用独立样本t检验判断进行心理辅导后的12名学生与未进行心理辅导的12名学生,在身体与体育竞赛适应上是否存在差异。研究数据不存在异常值,且各组组内接近正态分布,同时方程齐。结果显示,实验组的得分(20.83±3.099)高于对照组得分(18.33±3.393),差值为2.5(95%置信区间为-0.251 to 5.251)。独立样本t检验结果显示,t=1.884,P>0.05,说明实验组与对照组在身体与体育竞赛适应的后测上不存在统计学差异。

9 配对样本t检验:

  • 目的:对同一组人,观察给了实验刺激和没给实验刺激是否会产生差别。
  • 前提:
    1、观察变量为连续变量
    2、分组变量包含两个分类、且相关(配对)
    3、两个相关(配对)观测变量近似服从正态分布
  • 操作:以V1-V2的方式来计算
    在这里插入图片描述
  • 结果分析:
    在这里插入图片描述

由上图可见,前测的均值(18.58±3.965)低于后测的均值(20.83±3.099)

在这里插入图片描述

由上图可见,相关系数(0.963,p<0.001),可见前测和后测两组数据之间存在着显著相关。

在这里插入图片描述

由上图可见,前测和后测均数的差值为-2.25±1.288,差值的95%CI:-3.068 to -1.432。差值为负数,表示后测均属高于前测均数,差异有统计学意义(t=-6.051,p<0.001)

  • 结果撰写:
    利用配对样本t检验来判断研究对象经过心理辅导之后,是否有助于提高其在测试上的得分。研究对象基线身体与体育竞赛适应平均水平为18.58±3.965,心理辅导之后平均水平为20.83±3.099。心理辅导前后的差值为-2.25±1.288,差值的95%CI:-3.068 to -1.432。后测的平均水平高于前测的平均水平,差异具有统计学意义(t=-6.051,p<0.001)。

10 卡方检验:

10.1 2*2卡方检验

  • 目的:检测两组或者两组以上的计数型的数据是否存在某一事件上存在差异,实际上就是看实际观测数与理论观测数之间的偏离程度。
  • 前提:
    1、观测变量为二分类变量
    2、观测对象分组为两组
    3、观测值相互独立
    4、样本量足够大,最小样本量要求为分析中的任何一个单元格期望评数大于5(若存在期望频数小于5就要进行Fisher精确检验(2*2))
  • 计算公式:χ2=∑[(实际观测数-理论频数)2/理论频数],ν(自由度)=(行数-1)*(列数-1)
  • 操作:

在这里插入图片描述

在这里插入图片描述

  • 结果分析:

在这里插入图片描述

期望值=行合计(计数)列合计(计数)/合计(合计),比如计算是独生子女和未选中的期望值为83102/197(意义,期望即为理论上因该有多少个)。

在这里插入图片描述

根据表格下面提示a来选择看哪组数据:
1、总例数≥40,所有理论频数≥5,看Pearson Chi-Square结果;

2、总例数≥40,出现1个理论频数≥1且<5,χ2检验需进行连续性校正,这时以Continuity Correction结果为准;

3、总例数≥40,至少2个理论频数≥1且<5,看Fisher’s Exact Test结果;

4、总例数<40或者出现理论频数<1,看Fisher’s Exact Test结果。

  • 结果撰写:
    研究是否为独生子女在就业时是否会听取父母意见上是否存在差异。结果显示Pearson卡方值P>0.05,则此时要接受零假设,即独生子女在就业时会听取父母意见比非独生子女高,但是不存在统计学上的差异。

10.2 卡方检验 2*C:

  • 前提:
    1、观测变量为二分类变量
    2、观测对象分组为三组或三组以上
    3、观测值相互独立
    4、样本量足够大,最小样本量要求为分析中的任何一个单元格期望评数大于5(若存在期望频数小于5就要进行Fisher精确检验(2*C))

  • 操作:
    1、计算样本量所有单元格期望频数
    在这里插入图片描述
    在这里插入图片描述

2、卡方检验:
在这里插入图片描述

  • 结果分析:
    1、期望频率计数:
    在这里插入图片描述

由上图可见,最小单元格的期望频数为11.6>5,所有可以进行2C卡方检验。若存在期望频数小于5就要进行Fisher精确检验(2C)

在这里插入图片描述

由a的提示可见,没有单元格的期望计数小于5,所有结果参照Pearson卡方。由Pearson卡方结果可见P>0.05,可知来自不同类型城市的学生在是否要创业的选择的差异没有统计学意义。(若存差异存在统计学意义,就要进一步看两两比较的结果)

在这里插入图片描述

  • 结果撰写:
    研究调查了来自农村、城镇、中小城市、大城市在是否想要创业意愿上的状况分布。其中来自农村的33位被调查对象当中有10位(30.3%)有意愿进行创业;来自城镇的74位被调查对象中有31位(41.9%)有创业的意愿;来自中小城市59位被调查对象中有20位有意愿选择创业;来自大城市的31名被调查对象当中,有13名(41.9%)被调查对象有创业的意愿。四组的差异不具有统计学意义(x方=1.923,p>0.05)。

10.3 Fisher精确卡方检验(2*C):

  • 前提:
    1、观测变量为二分类变量
    2、观测对象分组为三组或三组以上
    3、观测值相互独立
    4、最小样本量要求为分析中,存在单元格期望评数小于5
  • 操作:
    在这里插入图片描述

将分组变量放入行,将因变量放入列,在单元格点选期望值和行。

在这里插入图片描述

在精确处点选精确

  • 结果分析:
    在这里插入图片描述

在这里插入图片描述

Fisher精确检验(2*C)中的两两分析
1、先选择两两比较的对象

在这里插入图片描述

2、重复卡方检验的步骤即可

  • 结果撰写:
    因为两两比较会增加犯I类风险的可能性,因此我们此时要进行Bonferroni校正,new_a = a/组数,然后用p值与new_a进行比较。
    前面与卡方检验(2C)一样。Fisher精确检验(2C)结果显示,四组差异不具有统计学意义(P>0.05)。(若差异有统计学意义)两两比较采用Bonferroni法调整a水平,结果显示,x与y组的差异有统计学意义。
  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值