假设检验-显著性检验原理（二）

# JFZero

已于 2023-04-10 20:26:21 修改

阅读量1.5k

点赞数 1

分类专栏：统计学习文章标签： ab测试机器学习人工智能

于 2023-03-24 19:24:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50348308/article/details/129733919

版权

统计学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

上文说到：根据随机误差的概率大小，判断两个数据差异是随机误差，还是本质差异的方式，是统计学中的显著性检验本质。

显著性检验的核心问题

显著性检验，是如何计算随机误差的概率？又如何判断概率大小的呢？

先来解决第一个问题：显著性检验，如何计算随机误差的概率？

一、显著性检验原理_如何计算随机误差的概率

显著性检验，是根据一组数据的分布规律，来计算差异的随机性概率大小（即随机误差概率）。

因此，我们需要先了解数据的分布规律。

1. 数据分布规律——正态分布

在生活中，大量数据通常呈现出对应的分布规律，我们之前学过的正态分布，则是非常普遍的数值分布规律。

（当然，还有其他分布，例如卡方分布、泊松分布等等，懒得讲了，一口吃不下一头大象）

如果数据服从正态分布，那么我们是可以通过数学公式，很快计算出数据的差异程度，再根据差异程度，计算出对应的随机误差概率。
在这里插入图片描述
因此，主要讲解的是数据服从正态分布时的显著性检验。

但为什么数据服从正态分布，就能计算出差异程度和随机差异概率呢？

这就要从数据差异和随机误差概率与正态分布，它们三者间剪不断扯还乱的统计伦理关系说起了。

果然，三个人的关系，永远是错综复杂的狗血伦理：无论爱情，还是统计学

2.数据差异、随机误差概率、正态分布的关系

如果一个数据集服从正态分布N（μ，σ），那么这个数据集里的数据分布图像就如下图所示:
（插图）
均值μ表示正态分布的中间位置，标准差σ表示曲线的离散程度（胖瘦）。

大西格玛σ，矮胖散成沙；
小西格玛σ，高瘦聚成塔。
——《我可真会压俗辣辣的韵，切克闹，单押》

它对应的概率分布规律就是，数据大概率会落在均值μ的附近，越偏离均值μ，概率越小。
在这里插入图片描述
你看，只要 $x^-$ 越偏离μ，那么随机落在 $x^-$ 处的概率就会越来越小，这个概率可以叫做随机误差概率。

那么我们可以根据正态分布的概率密度函数，直接计算出$x^-$处的概率值即可。
在这里插入图片描述
但实际在统计学计算与应用中，通常不是计算 $x^-$ 处的概率值，而是计算积分值（即求面积）

说实话，我不知道为啥非要求积分，为什么不直接求值【it doesn’t matter】
求值，也可以像显著性水平α那样，另外设置判断界限呀！！！
不懂不懂，酸辣酸辣，还是按老规矩，算积分面积就好啦

在这里插入图片描述
所以，上图右侧区域的面积，即为统计学中的随机误差概率值。

并且，当μ和 $x^-$ 的差异越大，随机误差概率越小。
在这里插入图片描述

因此，只要计算出μ和 $x^-$ 的偏差程度，我们就可以根据正态分布的概率密度函数，计算出随机误差概率了。

这就是它们三者的统计伦理关系：概率密度函数是大草原，差异是他，概率是她，她逃他追，她插翅难飞
这个比喻很奇怪，只是生搬硬凑的一部狗血伦理剧

不过，上图只是在演示右侧区间的概率值，实际是可以计算出左侧、双侧、右侧的概率。
左侧、右侧、双侧，它们的概率值，分别称为左侧 P 值、右侧 P 值、双侧 P 值。
在这里插入图片描述

。。。讲复杂了，完全没必要左侧、右侧的，直接双侧就可以覆盖两种情况了。。。。但是，话赶话都到这了。。。

在正态分布中，只要计算出两个均值的差异程度，就可以分别计算出对应的左侧、右侧、双侧概率（即随机误差概率）。

理解随机误差概率的计算原理后，现在解决第二个问题：显著性检验，如何判断随机误差的概率？

二、显著性检验原理_如何判断随机误差的概率

我们知道，判断的逻辑：只有当随机误差概率非常小的时候，才能认为差异是变量影响导致的！
在这里插入图片描述
那么，随机误差概率要多小，才能算非常小，才能算几乎不可能发生呢？？？？

总不能是相当于被雷劈18次=中彩票500万大奖的概率那么小吧！

这就需要我们人为去设置概率 P 值的分界线，而这个界限通常称为显著性水平α。

在统计学应用中，通常将这个显著性水平α设置为0.05，这个α表示的是双侧区域的概率为0.05。

正态分布曲线下的面积，即为概率值。
显著性水平α所对应的界限范围内的中间区域，一般称为置信区间。
显著性水平α所对应的界限范围外的两侧区域，一般称为拒绝域。
（插图）

如果计算出的P值小于显著性水平α（即P值<0.05)，说明P值落在拒绝域内，统计学上通常称为 差异显著。
👉随机误差概率P值偏小，我们可以认为两组数据的差异几乎不太可能是随机出现的，应该是变量导致的本质差异。
因此，P值＜α，表示差异显著，我们认为这两组数据是本质差异。

就比如，我们在池塘A里几乎不可能捞出鳄鱼，但在池塘B却一次捞上鳄鱼，因此我们认为池塘A和池塘B本质是不同的，有可能池塘A是普通水池，池塘B是专业养殖鳄鱼池。

如果计算出的双尾P值大于显著性水平α（即P值≥0.05)，P值对应的检验统计量落在置信区间里，统计学上通常称为 差异不显著。
👉随机误差概率P值较大，说明这两组数据的差异，既有可能是随机出现的，也有可能是变量导致的本质差异。
因此，P值>α，表示差异不显著，我们无法判断这两组数据本质上是否有差异。

就比如，在池塘A里，有较大可能捞到鳄鱼，在池塘B一次捞上鳄鱼，并无法说明池塘A和池塘B本质是否相同。有可能池塘A是野生水池，池塘B是专业养殖鳄鱼池；也有可能池塘A、B都是专业养殖鳄鱼池。

以上就是数据服从正态分布时，对两组数据的均值差异进行显著性检验的统计学原理。

三、显著性检验原理总结

在这里插入图片描述

在这里插入图片描述
这里只是讲解基础原理，但实际仍涉及了很多深入详细的知识点，留在下一文逐步讲解。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
假设检验-显著性检验原理（二）

显著性检验的基本统计原理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。