无授权,自留,侵删:P-values Explained By Data Scientist
四个部分:
- Hypothesis Testing
- Normal Distribution
- What is P-value?
- Statistical Significance
1.Hypothesis Testing
首先了解一下hypothesis testing ,在这里, p-value 被用来决定结果的统计显著性(statistical significance)。
统计显著性基于三点:
- Hypothesis testing
- Normal distribution
- P-values
Hypothesis testing 用来检验null hypothesis的有效性。alternative hypothesis是如果原假设都不成立,你会相信的假设。
换句话说,null hypothesis与使用样本检查 claim是否有效。假如 claim无效,则我们选择alternative hypothesis。
如何判断claim是否有效?
使用 p-value。
If the evidence supports the alternative hypothesis, then we’ll reject the null hypothesis and accept the alternative hypothesis. This will be explained further in the later section.
一个例子:
假设一家披萨店claim他们的送货时间平均不超过30分钟,但你认为他们超时了。因此,您进行a hypothesis test,并随机抽取一些交货时间来test the claim。
- Null hypothesis — The mean delivery time is 30 minutes or less(不超时)
- Alternative hypothesis — The mean delivery time is greater than 30 minutes(超时的选项)
目标
确定从我们的样本数据中找到的证据可以更好地支持哪种说法(无效或替代)。
一种通常用的测试就是 Z-test。
2.Normal Distribution
上图表明:
68%的数据在平均值(μ)的1个标准偏差(σ)内
95%的数据在平均值(μ)的2个标准偏差(σ)内
99.7%的数据在平均值(μ)的3个标准偏差(σ)之内
由于我们使用Z检验来进行假设检验,因此我们需要计算Z分数(用于我们的检验统计量),即与数据点均值的标准偏差数。 在我们的案例中,每个数据点都是我们收集的比萨送达时间。
查看标准正态分布曲线很有用,因为我们可以将测试结果与标准偏差为标准单位的“正态”总体进行比较。
这就是我们需要最后一项来解决难题的地方——p值,并根据我们开始实验前设定的显著性水平(也称为α)来检查我们的结果是否具有统计显著性。
3. 什么是P-value
如果最终证据支持比萨饼店的索赔(平均交货时间为30分钟或更短),那么我们将不会拒绝 the null hypothesis。 否则,我们将拒绝the null hypothesis。
p值越低,the null hypothesis看起来就越荒谬。
此时,我们拒绝the null hypothesis并且采用alternative hypothesis取代。
P-value in pizza delivery times
现在,我们已经收集了一些采样的交付时间,我们进行了计算,发现平均交付时间延长了10分钟,p值为0.03。
这意味着在世界上披萨的运送时间为30分钟或更短的时间(null hypothesis是正确的)的情况下,由于随机噪音,我们有3%的可能性会发现平均披萨的运送时间至少要长10分钟。
p值越低,结果越有意义,因为它不太可能是由噪音引起的。
多数人对P-value有误解:
以下是我们如何使用0.03的p值来帮助我们做出合理的决定(重要):
- 想象一下,我们生活在一个平均交货时间始终为30分钟或更短的世界中(the null hypothesis)-因为我们相信披萨店(我们最初的信念)!
- 在分析了收集的样本交付时间之后,p值0.03低于显着性水平(significance level)0.05(假设我们在实验之前进行了设置),并且可以说结果具有统计学意义。
- 因为我们一直相信的披萨店,它可以履行其承诺提供披萨在30分钟或更短的时间内,我们现在需要认为如果这个信念仍然是有意义的,因为结果告诉我们,披萨店未能兑现其承诺,并且这个结果具有统计学意义。
那么接下来我们应该做些什么。
首先,我们试着思考每一种可能的方法来使我们最初的假定(the null hypothesis)有效。
但是由于披萨店的评价越来越差,而且经常会给出一些不好的理由,导致交货延迟,所以即使是我们自己也会觉得很可笑,于是我们决定拒绝(the null hypothesis)。
最后,接下来的合理决定是不再从那个地方买披萨。
现在你可能已经意识到,根据我们的上下文,P-value不能用来证明或证明任何事情。
当结果具有统计显著性时,P-value被用来针对我们最初的信念( null hypothesis)。当我们对自己的信念感到荒谬可笑的时候(假设p值表明结果在统计上是显著的),我们就会抛弃最初的信念(reject the null hypothesis),做出合理的决定。
4. 统计显著性
最后阶段,我们将所有内容放在一起,并测试结果是否具有统计意义。
仅拥有p值是不够的,我们需要设置一个阈值(也就是显着性水平-alpha)。
应该始终在实验前设置Alpha以避免偏差。
如果观察到的p值小于alpha,则可以得出结论,该结果具有统计意义。
一般来说,将这个阈值alpha设置为0.05或0.01(当然,该值取决于您遇到的问题)。
如前所述,假设我们在开始实验前将alpha设为0.05,由于p值0.03低于alpha,所以得到的结果具有统计学意义。
为了便于参考,以下是整个实验的基本步骤:
-
1.陈述原假设
-
2.陈述替代假设
-
3.确定要使用的alpha值
-
4.查找与您的Alpha水平关联的Z分数
-
5.使用此公式查找测试统计量
-
6.如果检验统计量的值小于alpha级别的Z分数(或p值小于alpha值),则拒绝原假设。 否则,请不要拒绝原假设。