【Statistics-5】——正态分布与二项分布的逼近

在前文中,实际上我们不仅仅在考虑,抽样分布的置信区间与假设检验方法;实际上,我们面对的是一种特殊的分布。当然,我们都学过概率论,所以我们也知道,这其实就是中心极限定理——特别的,这里是二项分布逼近正态分布的情况,然后我们对它采取标准化操作,变为标准正态分布。以下我们还是从直观的、统计的角度来看待、感受标准正态分布,而不是像概率论教材里那样严谨的从数学上证明。

8.标准正态分布

上面我们提到的对抽样分布的归一化公式,其中 p ^ \hat p p^ 是各次实验的统计数据, p p p是问题的真值(实践中,我们用抽样分布的均值 μ \mu μ来代替, n n n
p ^ − p p ( 1 − p ) n \hat p- p \over \sqrt { p(1-p) \over n} np(1p) p^p
例如,之前对于民意调查的实验结果,经过归一化后如下:
在这里插入图片描述
我们将离散的分布连续化,将其中的内容变得更加平滑:
在这里插入图片描述

在这里,我们可以看到之前的95%置信区间的1.96是怎么来的,其实就是归一化后,[-1.96,1.96]就是95%置信区间。

实际上,标准化是十分有用的,这里还是再举个类似的例子,啰嗦两句:
在这里插入图片描述
例如,其中的0.62是某一次的抽样结果,那么它不在95%置信区间内。通过归一化方法,我们发现归一化后的值为2.4,也不在95%置信区间内。
在这里插入图片描述
归一化使得我们在内核相同但具体应用场景不同的时候,即具体数字不同,但分布形态相同时,将分布转换为相同的标准正态分布,将具体的抽样结果对应起来。啰嗦一下,标准正态分布的概率密度函数是:
1 2 π e − 1 2 x 2 {1 \over \sqrt {2 \pi}}e^{-{1\over 2}x^2} 2π 1e21x2
值得注意的是,使用正态分布近似伯努利分布,并不意味着他们真正的相同。首先,伯努利分布是离散的分布,而正态分布是连续的;其次,这种近似也是有条件的近似,其相关条件如下所述。

  • 理论上,就是“棣莫弗-拉普拉斯中心极限定理”,中心极限定理的先驱。

9.近似条件

并不是所有的伯努利实验结果,都可以被近似为正态分布,并用上面的方法分析。直观的来说,真实的概率 p p p和样本容量 n n n都会影响近似程度,因为他们都会影响抽样分布的形态。下面举两个例子:

9.1 样本容量的影响

首先,我们自然是希望样本容量大一些好,如果样本容量 n n n很小,例如在抛硬币的时候,我们认为 n = 2 n=2 n=2,那么结果如下:
在这里插入图片描述
显然,由于每次实验的结果都太离散了,不可能用连续的分布去近似它。而且我们算一算95%置信区间,结果都超出[0,1]范围了。因此,n要足够大,才能够充分得到更加连续的结果。

9.2 真实值影响

如果真实值非常接近0或者接近1,那么分布形态也会不太像正态分布。如下所示,看起来类似于一个“偏态分布”:
在这里插入图片描述
显然,这里的n不够大:n比较小的时候,分布比较宽,直观地想象,分布的“一侧难以展开”,因此如果n取值大一些,那么分布还是会比较类似于正态分布的。

总结

实际上,在概率论课本上,写的是当 n p > 20 np>20 np>20的时候,我们就可以用正态分布来逼近伯努利分布了。我们首先要意识到, n p np np其实是多次实验时,事件发生的期望的含义,这意味着很多时候我们只要知到事件发生的期望,而不需要知到具体的概率,就可以做近似了。其次,上面的公式可以说是一个经验公式, n p ≥ 10 np \ge10 np10或者说 n ( 1 − p ) ≥ 10 n(1-p) \ge 10 n(1p)10都是可以的。这里我们要注意,p和1-p是对称的,因此我们需要考虑p和1-p的较小值,满足上面的条件。

例如我们在上面9.1节中投硬币的实验中,设置 n = 20 n=20 n=20,那么结果就好多了。
在这里插入图片描述
或者9.2节中,将样本大小设为 n = 100 n=100 n=100,结果也看起来好多了(因为100*(1-0.9)=10),这里我们要注意,p和1-p是对称的,在这里p很大,所以我们肯定考虑1-p满足条件。
在这里插入图片描述
此外,用泊松分布逼近伯努利分布,其实也是这个公式,类似的这个道理。但是如果实在是不能满足上面的公式,即 n n n太小,或者 p p p取值过于极端,那么我们应该如何?

书中介绍,可以使用exact methods。实际上就是我们可以假设二项分布中的 p p p 1 − p 1-p 1p来直接计算理想的结果,但是这和我们验证假设又有什么关系呢。。。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值