【Statistics-3】——抽样结果的误差分析

4. 频率派假设检验的两类错误

第一类错误:例如,一枚公平的硬币,在进行随机实验时,如果我们根据95%置信区间的法则,只有5%的实验内,会让我们错误的认为,这枚公平的硬币是不公平的。即,错误的拒绝正确的假设。
第二类错误:例如,一枚不公平的硬币,我们假设它公平,在进行随机实验时,任然可能落入我们的95%置信区间内,我们会错误的认为,这枚硬币是公平的,即,正确的接受错误的假设。

如下,我们展示四类情况,两类是在假设检验的框架下得到了正确的结果,两类是得到了错误的结果。
在这里插入图片描述
列个表格,如下所示:
在这里插入图片描述
两类错误,再次重复一遍:
第一类错误,我们假设A成立,事实上A真的成立(但我们不可能知道),但抽样实验的结果却落在置信区间之外,那么我们认定假设不成立,因此得到了错误的结果:拒绝了正确的假设。
第二类错误,我们假设A成立,事实上A不成立(但我们不可能知道),但抽样实验的结果却落在置信区间之内,那么我们认定假设成立,因此得到了错误的结果:接受了错误的假设。

还是特别提醒,我们不要弄错置信区间的含义。95%置信区间并不意味着我们在进行抽样的时候,有95%可能获得正确的结果。显然,上面是“条件概率”,也就是在所有实验面对的真实情况,都是符合假设的时候,这是讨论第一类错误,而且不会犯第二类错误;但是实际上我们对假设的先验完全没概念,如果所有的实验,真实情况都是不符合我们的假设的,那么我们完全不知道我们有多少概率获得正确的结果,全是第二类错误而没有第一类错误。

影响Type II 错误的因素

这里主要讨论样本大小(batchsize)对于第二类错误的估计。
首先,如果一个不符合我们假设的情况,和我们真实情况很接近,那么我们很容易犯下第二类错误,如下图所示:
如果真实情况是0.3,那么如下所示,落在0.5的95%置信区间的实验还不是很多。
在这里插入图片描述
如果真实情况是0.4,那么如下所示,落在0.5的95%置信区间的实验很多,原因是0.4比0.3更加接近0.5。
在这里插入图片描述
实际上,我们意识到,如果我们增加抽样次数,可以让分布变得更细,进而使得置信区间变得更细。那么我们可以有效避免这种情况。
在这里插入图片描述
如果真实情况是0.3,进行1000次实验,那么如下所示,落在0.5的95%置信区间的就几乎没有。哪怕真实情况是0.4,也几乎没有被接受的可能。而如果是0.47,虽然可能被接受了,但是这和真实结果已经比较接近了,有的时候是可以容许的。

因此我们得出结论:提高重复实验次数,可以减少第二类错误的发生。(注意,我们没办法获取实验的先验,也就是我们假设的事物的真实情况。不过,我们并没有提高第一类错误发生的概率)

影响Type I 错误的因素

实际上很简单,我们只需要提高置信度,就可以减少第一类错误的发生。这显而易见,不必多言。例如,99%的置信区间比95%的区间显然更宽,那么在假设情况是真实的时候,
但同时,显然我们也增加了第二类错误的发生概率。In short: When we make our Type I Error criterion stricter, we increase the likelihood of Type II Error。

总结

两类错误发生的概率,实际上和先验有关,和抽样次数、实际的概率、置信区间的置信度都有关系,但是有些东西我们实际上无法控制,例如实验的先验、事实际的概率。因此我们只能想办法控制抽样次数、置信区间的置信度,来达到满足我们要求的统计。

因此,我们需要考虑到在不同应用场景下的要求。In practice, Type I Error is feared more than Type II Error.

例如我们可能会设置一个第一类错误和第二类错误率。
我们可以通过如下的方法设置第一类错误率,即设置置信区间的大小,例如,With surveys, for example, we want to limit how often we infer that a majority of the population is in favor of a new policy when in fact a majority is not in favor。这时候,我们假设群众支持政策,我们犯第一类错误时,是群众事实上不支持政策。

我们可以通过如下的方法控制第二类错误,但是实际上我们很难估算第二类错误。That occurs if we infer that a majority of the population is not in favor of the new policy when in fact a majority is in favor.我们通过假设大家不支持政策,设置置信区间。

  • 但是值得注意的是,群众支持政策或者是不支持政策,实际上都是通过“支持率”的取值考虑的,都是区间,而并不想上面的例子那样,是点值。
    There is no well-established convention, but the most common guidance is to try and limit Type II Error to 20% (by having large enough sample sizes). These guidelines of 5% and 20% imply that we prefer to error on the conservative side, maintaining the status
    quo.Using our surveying context, this means that statistical survey evidence is more likely to erroneously undermine new policies than to erroneously provide support for them.。所谓保守的一侧,就是说我们更倾向于“即使做错判断,也不会发生大问题”的情况,这一面可以多犯点错,因此这种错误的错误率可以高一些;而不是“做错判断,会发生大问题”,我们需要严格的控制错误率。

在这里,erroneously provide support for them是大问题,指的是Type I错误,我们只有5%的情况下会发生错误,即我们假设:选民不支持决议,并设置置信区间为95%;而erroneously undermine new policies ,指的是Type II错误,我们允许20%的情况下会发生错误:分析的时候,我们会假设选民支持决议,并设置置信区间为80%

换句话说,这里的保守面,就是分析第一类错误时的假设。

  • 注意,在这里我们可以这么认为,但是实践中,我们有另外的更加保守的讨论方法,请见 【Statistics-4】。

5. 一些例子

我们还是继续上述的民意支持度的例子。分别关注第一、第二类错误,从增加置信度、提高采样样本大小的角度来讨论。
奇数例子中,关注第一类错误;偶数例子中,关注第二类错误。

Case1

上帝视角,50%的人支持政策(概率真值)。假设是:总体中有50%的人支持政策。1000个调查者做随机抽样调查(1000次实验),每个调查者随机调查(100人)。所有调查者均采用95%的置信区间来接受假设。这里,95%置信区间是【40,60】。

那么第一类错误率为:5%,只有5%的人会错误的拒绝假设。因为在上帝视角,真实值就是50%。

Case2

上帝视角,55%的人支持政策(概率真值)。假设是:总体中有50%的人支持政策。1000个调查者做随机抽样调查(1000次实验),每个调查者随机调查100人(样本大小)。所有调查者均采用95%的置信区间来接受假设。这里,95%置信区间是【40,60】。
在这里插入图片描述

那么第二类错误率为:85%,竟然有85%的人会接受50%的错误假设。因为在上帝视角,真实值是55%,而不是假设的50%。

Case3

  • 第二类错误太高了,显然不是我们希望的。我们通过提高样本大小,来降低第二类错误。

上帝视角,50%的人支持政策(概率真值)。假设是:总体中有50%的人支持政策。1000个调查者做随机抽样调查(1000次实验),每个调查者随机调查1000人(样本大小)。所有调查者均采用95%的置信区间来接受假设。这里,95%置信区间是【47,53】。

那么第一类错误率为:5%,只有5%的人会错误的拒绝假设。因为在上帝视角,真实值就是50%。

  • 注意,提高样本大小并不改变第一类错误;

Case4

上帝视角,55%的人支持政策(概率真值)。假设是:总体中有50%的人支持政策。1000个调查者做随机抽样调查(1000次实验),每个调查者随机调查1000人(样本大小)。所有调查者均采用95%的置信区间来接受假设。这里,95%置信区间是【47,53】。
在这里插入图片描述

那么第二类错误率为:10%,只有10%的人会接受50%的错误假设,其余90%的人都正确。因为在上帝视角,真实值是55%,而不是假设的50%。

  • 可见通过增大样本大小,第二类错误显著的改变了。

Case5

  • 前文提到,我们希望避免第一类错误,而变得更加保守一些。

上帝视角,50%的人支持政策(概率真值)。假设是:总体中有50%的人支持政策。1000个调查者做随机抽样调查(1000次实验),每个调查者随机调查1000人(样本大小)。所有调查者均采用99%的置信区间来接受假设。这里,95%置信区间是【46,54】。

那么第一类错误率为:1%,只有1%的人会错误的拒绝假设。因为在上帝视角,真实值就是50%。

  • 显然,只有置信区间的置信度设置,会影响第一类错误的错误率。第一类错误显著降低。

Case6

上帝视角,50%的人支持政策(概率真值)。假设是:总体中有55%的人支持政策。1000个调查者做随机抽样调查(1000次实验),每个调查者随机调查1000人(样本大小)。所有调查者均采用99%的置信区间来接受假设。这里,95%置信区间是【46,54】。

那么第二类错误率为:30%,竟然又有30%的人会错误的拒绝假设。因为在上帝视角,真实值是55%,而不是50%。
在这里插入图片描述

  • 即使抽样是1000,由于置信度提高,区间变宽,使得第二类错误又迅速的提升了。这也不是我们希望的,因为第一类错误仅仅降低4%,而第二类错误却升高到30%,这意味着我们需要进行更大量的采样,去降低第二类错误。

总结

上面的后四个例子,两类错误分别是,(5,10),(1,30),显然,我们需要对置信度和采样区间做一个权衡——如果置信度过高,第一类错误固然小,但是意味着我们需要更大的样本大小,这意味着我们需要更多的人力物力。
实际上,这种权衡取决于我们究竟想要什么,我们希望第一类错误小,还是第二类错误小。如果第一类错误的影响(repercussions)很糟糕(犯错的结果很严重),那么选(1,30),否则,可以选择(5,10)。
同时,我们要意识到,上面的假设,我们仅仅假设50%一个点,作为第一类错误的分析场景,这是比较简单的情况。而且,分析第二类错误时,也只用了55%,但实际上其它情况,例如“假设真实值为任何不是50%的情况,如51%、52%”,都是第二类错误,不同情况下第二类错误取值,完全是不一样的。

底线(The Bottom Line): Sample size is an important way to manage error rates. Larger sample sizes allow you to make your Type I Error level stricter, if desired, while also making sure your Type II Error level remains reasonable.

术语与记号(Terminology and Notation):数学上,第一类错误率,常常记作 α \alpha α,用比例表示.,而置信度是 ( 1 − α ) ∗ 100 (1-\alpha)*100% (1α)100. 因此 α = 0.05 \alpha=0.05 α=0.05时,置信度为 95 95% 95, 而第二类置信度被记作 β \beta β ,而Power(也不知道如何翻译) 是 1 − β 1-\beta 1β,我们并不记作百分比,依旧是比例。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值