【基础概念】P-values的解释

无授权,自留,侵删:P-values Explained By Data Scientist
四个部分:

  • Hypothesis Testing
  • Normal Distribution
  • What is P-value?
  • Statistical Significance

1.Hypothesis Testing

在这里插入图片描述
首先了解一下hypothesis testing ,在这里, p-value 被用来决定结果的统计显著性(statistical significance)。

统计显著性基于三点:

  • Hypothesis testing
  • Normal distribution
  • P-values

Hypothesis testing 用来检验null hypothesis的有效性。alternative hypothesis是如果原假设都不成立,你会相信的假设。
换句话说,null hypothesis与使用样本检查 claim是否有效。假如 claim无效,则我们选择alternative hypothesis。
如何判断claim是否有效?
使用 p-value。

If the evidence supports the alternative hypothesis, then we’ll reject the null hypothesis and accept the alternative hypothesis. This will be explained further in the later section.

一个例子:

假设一家披萨店claim他们的送货时间平均不超过30分钟,但你认为他们超时了。因此,您进行a hypothesis test,并随机抽取一些交货时间来test the claim。

  • Null hypothesis — The mean delivery time is 30 minutes or less(不超时)
  • Alternative hypothesis — The mean delivery time is greater than 30 minutes(超时的选项)
目标

确定从我们的样本数据中找到的证据可以更好地支持哪种说法(无效或替代)。
一种通常用的测试就是 Z-test。

2.Normal Distribution

在这里插入图片描述
上图表明:
68%的数据在平均值(μ)的1个标准偏差(σ)内
95%的数据在平均值(μ)的2个标准偏差(σ)内
99.7%的数据在平均值(μ)的3个标准偏差(σ)之内

由于我们使用Z检验来进行假设检验,因此我们需要计算Z分数(用于我们的检验统计量),即与数据点均值的标准偏差数。 在我们的案例中,每个数据点都是我们收集的比萨送达时间。
在这里插入图片描述
查看标准正态分布曲线很有用,因为我们可以将测试结果与标准偏差为标准单位的“正态”总体进行比较。
在这里插入图片描述

这就是我们需要最后一项来解决难题的地方——p值,并根据我们开始实验前设定的显著性水平(也称为α)来检查我们的结果是否具有统计显著性。

3. 什么是P-value

如果最终证据支持比萨饼店的索赔(平均交货时间为30分钟或更短),那么我们将不会拒绝 the null hypothesis。 否则,我们将拒绝the null hypothesis。
p值越低,the null hypothesis看起来就越荒谬。
此时,我们拒绝the null hypothesis并且采用alternative hypothesis取代。

P-value in pizza delivery times

现在,我们已经收集了一些采样的交付时间,我们进行了计算,发现平均交付时间延长了10分钟,p值为0.03。
这意味着在世界上披萨的运送时间为30分钟或更短的时间(null hypothesis是正确的)的情况下,由于随机噪音,我们有3%的可能性会发现平均披萨的运送时间至少要长10分钟。
p值越低,结果越有意义,因为它不太可能是由噪音引起的。
多数人对P-value有误解:

以下是我们如何使用0.03的p值来帮助我们做出合理的决定(重要):

  • 想象一下,我们生活在一个平均交货时间始终为30分钟或更短的世界中(the null hypothesis)-因为我们相信披萨店(我们最初的信念)!
  • 在分析了收集的样本交付时间之后,p值0.03低于显着性水平(significance level)0.05(假设我们在实验之前进行了设置),并且可以说结果具有统计学意义。
  • 因为我们一直相信的披萨店,它可以履行其承诺提供披萨在30分钟或更短的时间内,我们现在需要认为如果这个信念仍然是有意义的,因为结果告诉我们,披萨店未能兑现其承诺,并且这个结果具有统计学意义。

那么接下来我们应该做些什么。

首先,我们试着思考每一种可能的方法来使我们最初的假定(the null hypothesis)有效。
但是由于披萨店的评价越来越差,而且经常会给出一些不好的理由,导致交货延迟,所以即使是我们自己也会觉得很可笑,于是我们决定拒绝(the null hypothesis)。
最后,接下来的合理决定是不再从那个地方买披萨。

现在你可能已经意识到,根据我们的上下文,P-value不能用来证明或证明任何事情。
当结果具有统计显著性时,P-value被用来针对我们最初的信念( null hypothesis)。当我们对自己的信念感到荒谬可笑的时候(假设p值表明结果在统计上是显著的),我们就会抛弃最初的信念(reject the null hypothesis),做出合理的决定。

4. 统计显著性

最后阶段,我们将所有内容放在一起,并测试结果是否具有统计意义。
仅拥有p值是不够的,我们需要设置一个阈值(也就是显着性水平-alpha)。
应该始终在实验前设置Alpha以避免偏差。
如果观察到的p值小于alpha,则可以得出结论,该结果具有统计意义。

一般来说,将这个阈值alpha设置为0.05或0.01(当然,该值取决于您遇到的问题)。
如前所述,假设我们在开始实验前将alpha设为0.05,由于p值0.03低于alpha,所以得到的结果具有统计学意义。

为了便于参考,以下是整个实验的基本步骤:

  • 1.陈述原假设

  • 2.陈述替代假设

  • 3.确定要使用的alpha值

  • 4.查找与您的Alpha水平关联的Z分数

  • 5.使用此公式查找测试统计量

  • 6.如果检验统计量的值小于alpha级别的Z分数(或p值小于alpha值),则拒绝原假设。 否则,请不要拒绝原假设。
    在这里插入图片描述

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值