假设检验-显著性检验原理(二)

上文说到:根据随机误差的概率大小,判断两个数据差异是随机误差,还是本质差异的方式,是统计学中的显著性检验本质。

显著性检验的核心问题

显著性检验,是如何计算随机误差的概率?又如何判断概率大小的呢?

先来解决第一个问题:显著性检验,如何计算随机误差的概率?

一、显著性检验原理_如何计算随机误差的概率

显著性检验,是根据一组数据的分布规律,来计算差异的随机性概率大小(即随机误差概率)。

因此,我们需要先了解数据的分布规律。

1. 数据分布规律——正态分布

在生活中,大量数据通常呈现出对应的分布规律,我们之前学过的正态分布,则是非常普遍的数值分布规律。

(当然,还有其他分布,例如卡方分布、泊松分布等等,懒得讲了,一口吃不下一头大象)

如果数据服从正态分布,那么我们是可以通过数学公式,很快计算出数据的差异程度,再根据差异程度,计算出对应的随机误差概率
在这里插入图片描述
因此,主要讲解的是数据服从正态分布时的显著性检验。

但为什么数据服从正态分布,就能计算出差异程度和随机差异概率呢?

这就要从数据差异随机误差概率正态分布,它们三者间剪不断扯还乱的统计伦理关系说起了。

果然,三个人的关系,永远是错综复杂的狗血伦理:无论爱情,还是统计学

2.数据差异、随机误差概率、正态分布的关系

如果一个数据集服从正态分布N(μ,σ),那么这个数据集里的数据分布图像就如下图所示:
(插图)
均值μ表示正态分布的中间位置,标准差σ表示曲线的离散程度(胖瘦)。

大西格玛σ,矮胖散成沙;
小西格玛σ,高瘦聚成塔。
——《我可真会压俗辣辣的韵,切克闹,单押》

它对应的概率分布规律就是,数据大概率会落在均值μ的附近,越偏离均值μ,概率越小。
在这里插入图片描述
你看,只要 x − x^- x越偏离μ,那么随机落在 x − x^- x处的概率就会越来越小,这个概率可以叫做随机误差概率。

那么我们可以根据正态分布的概率密度函数,直接计算出$x^-$处的概率值即可。
在这里插入图片描述
但实际在统计学计算与应用中,通常不是计算 x − x^- x处的概率值,而是计算积分值(即求面积)

说实话,我不知道为啥非要求积分,为什么不直接求值【it doesn’t matter】
求值,也可以像显著性水平α那样,另外设置判断界限呀!!!
不懂不懂,酸辣酸辣,还是按老规矩,算积分面积就好啦

在这里插入图片描述
所以,上图右侧区域的面积,即为统计学中的随机误差概率值。

并且,当μ和 x − x^- x的差异越大,随机误差概率越小。
在这里插入图片描述

因此,只要计算出μ和 x − x^- x的偏差程度,我们就可以根据正态分布的概率密度函数,计算出随机误差概率了。

这就是它们三者的统计伦理关系:概率密度函数是大草原,差异是他,概率是她,她逃他追,她插翅难飞
这个比喻很奇怪,只是生搬硬凑的一部狗血伦理剧

不过,上图只是在演示右侧区间的概率值,实际是可以计算出左侧、双侧、右侧的概率。
左侧、右侧、双侧,它们的概率值,分别称为左侧 P 值右侧 P 值双侧 P 值
在这里插入图片描述

。。。讲复杂了,完全没必要左侧、右侧的,直接双侧就可以覆盖两种情况了。。。。但是,话赶话都到这了。。。

在正态分布中,只要计算出两个均值的差异程度,就可以分别计算出对应的左侧、右侧、双侧概率(即随机误差概率)。

理解随机误差概率的计算原理后,现在解决第二个问题:显著性检验,如何判断随机误差的概率?

二、显著性检验原理_如何判断随机误差的概率

我们知道,判断的逻辑:只有当随机误差概率非常小的时候,才能认为差异是变量影响导致的!
在这里插入图片描述
那么,随机误差概率要多小,才能算非常小,才能算几乎不可能发生呢????

总不能是相当于被雷劈18次=中彩票500万大奖的概率那么小吧!

这就需要我们人为去设置概率 P 值的分界线,而这个界限通常称为显著性水平α。

在统计学应用中,通常将这个显著性水平α设置为0.05,这个α表示的是双侧区域的概率为0.05

正态分布曲线下的面积,即为概率值。
显著性水平α所对应的界限范围内的中间区域,一般称为置信区间
显著性水平α所对应的界限范围外的两侧区域,一般称为拒绝域
(插图)

  • 如果计算出的P值小于显著性水平α(即P值<0.05),说明P值落在拒绝域内,统计学上通常称为 差异显著
    👉随机误差概率P值偏小,我们可以认为两组数据的差异几乎不太可能是随机出现的,应该是变量导致的本质差异。
    因此,P值<α,表示差异显著,我们认为这两组数据是本质差异。
    在这里插入图片描述

就比如,我们在池塘A里几乎不可能捞出鳄鱼,但在池塘B却一次捞上鳄鱼,因此我们认为池塘A和池塘B本质是不同的,有可能池塘A是普通水池,池塘B是专业养殖鳄鱼池。

  • 如果计算出的双尾P值大于显著性水平α(即P值≥0.05),P值对应的检验统计量落在置信区间里,统计学上通常称为 差异不显著
    👉随机误差概率P值较大,说明这两组数据的差异,既有可能是随机出现的,也有可能是变量导致的本质差异。
    因此,P值>α,表示差异不显著,我们无法判断这两组数据本质上是否有差异。
    在这里插入图片描述

就比如,在池塘A里,有较大可能捞到鳄鱼,在池塘B一次捞上鳄鱼,并无法说明池塘A和池塘B本质是否相同。有可能池塘A是野生水池,池塘B是专业养殖鳄鱼池;也有可能池塘A、B都是专业养殖鳄鱼池。

以上就是数据服从正态分布时,对两组数据的均值差异进行显著性检验的统计学原理。

三、显著性检验原理总结

在这里插入图片描述

在这里插入图片描述
这里只是讲解基础原理,但实际仍涉及了很多深入详细的知识点,留在下一文逐步讲解。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
均数差别的显著性检验主要使用f检验(F-test)方法。该方法用于比较两个或多个样本均数之间是否存在显著差异。下面将详细介绍f检验的步骤和原理。 首先要确保数据满足一定的假设,包括样本数据满足正态分布、方差齐性等条件。然后计算每个样本的均值和方差。 在进行f检验之前,需要明确研究的原假设(H0)和备择假设(H1)。原假设通常假设样本均数之间没有显著差异,备择假设则认为样本均数之间存在显著差异。 f检验的原理是通过比较样本组内的方差与组间的方差的比值,判断均数差别是否显著。如果组间方差远大于组内方差,则说明均数差别显著;反之,则说明均数差别不显著。 计算f值的公式为:f = 组间方差 / 组内方差。 接下来,根据所设定的显著性水平(通常为0.05),查表得到临界f值。与临界值进行比较,若计算得到的f值大于临界值,则拒绝原假设,认为样本均数之间存在显著差异;反之,则接受原假设,认为样本均数之间的差异不显著。 需要注意的是,f检验是基于方差的检验方法,因此在应用时需确保样本满足假设的条件。若数据不满足正态分布或方差齐性的假设,则可能无法进行f检验,需考虑其他适用的统计方法。 总之,f检验是一种常用的均数差别显著性检验方法,通过比较组间和组内方差之间的比值,判断均数差别是否显著。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值