【Statistics-6】——差异检验和三大分布

最新推荐文章于 2022-07-24 20:27:41 发布

应有光

最新推荐文章于 2022-07-24 20:27:41 发布

阅读量380

点赞数

分类专栏：基础知识文章标签： pytorch 概率论

本文链接：https://blog.csdn.net/zeiyousao/article/details/123758899

版权

基础知识专栏收录该内容

15 篇文章 1 订阅

订阅专栏

实际上，有些时候我们并不需要判别一个分布的值，而是知道两个分布之间的区别。

10. Analyzing the Difference Between Two Groups Using Binomial Proportions

还是这个例子，但是我们希望比较俩个城镇之间，对于各自的法案的支持程度，例如第一个镇的人风气比较自由主义做派，第二个镇的人的风气比较保守，那么他们关于类似法案的支持度，很有可能不一样。我们按照假设检验的标准步骤，完成这项调查。当然，我们可以分别估计他们两的情况，然后做出推断，但是这里我们采取把他们两个放在一起看的方案。

确立假设

首先，我们假设“两个城镇的人对于决议的支持度相同”。这是符合之前假设检验的规则的，我们希望排除这个假设。
这里我们要考虑的随机变量，就是两个镇分别抽样后，计算得到比例并做减法。
由于我们还是站在上帝视角来完成实验，因此我们实现先假设两个镇的支持率都是0.5，然后我们进行实验模拟。

抽样实验

我们选取样本大小为100，进行上一小节中的计算，并且执行重复实验非常多次，我们得到结果如下：
在这里插入图片描述

注意到，由于样本容量比较小，而且置信区间是95%，因此第二类错误的可能性比较大。也就是说事实上，两个分布的情况是不同的，但是我们还是接受了假设（没拒绝假设）。

计算

注意，这里由于涉及到两个分布，而且实际上两个分布是独立的。我没学过概率论，知道：
$D (X - Y) = D (X) + D (Y) - 2 E [(X - E [x]) (Y - E (Y)]$
其中这里由于独立性关系，协方差是0，所以我们的抽样分布的标准差，如下书写：
$\sqrt{ {p_1(1-p_1) \over n_1}+{p_2(1-p_2) \over n_2}}$
我们依据95%的置信区间的计算公式，代入计算：
$\pm 1.96 *\sqrt{ {.5(1-.5) \over 100}+{.5(1-.5) \over 100}}=0\pm0.14$
“巧了”，和上面没有进行标准化的实验结果是符合的。如果我们的抽样结果是0.52和0.44，那么二者之差是0.08，其位于置信区间之间。（注意，这是没有标准化后的结果，不要弄混淆）

现在我们不再采用上帝视角观察问题，我们利用公式：
$p_1 -p_2 \over{ \sqrt{ {p_1(1-p_1) \over n_1}+{p_2(1-p_2) \over n_2}}}$
得到经过归一化后的标准差。具体的，对于这个问题，其值为1.136.
我们发现，其位于标准正态分布的1.96的95%置信区间内。
在这里插入图片描述

这时候，其实有一点尴尬的问题，52%和44%在我们看来实际上是很大的差别（具有实践统计性差异），但是我们现在通过统计的方法，认为二者不具有统计显著性。那么我们是否应该认为二者具有显著性的差异呢？
其实主要问题就是，抽样大小仅仅为100，实在是太小了，这使得我们很容易犯第二类错误：即明明两个分布不相同，但是我们却认为他们相同（不排除他们不相同）。
虽然1000.48和1000.44都大于10，但是还是不行。

第二次实验

如果这时我们再进行一次抽样，我们知道结果是52%和34%。这次我们利用公式：
$p_1 -p_2 \over{ \sqrt{ {p_1(1-p_1) \over n_1}+{p_2(1-p_2) \over n_2}}}$
计算得到结果（注意，这是标准化后的标准差，不要弄混淆！），其结果为3.592，其在标准分布的95%置信区间的2.614外部。那么我们就拒绝假设。
不过注意到52%和34%实在差别过大，有这样的结果从直觉上都可以说二者的分布不一样了。

第三次实验

过了一个月，我们收集了足够的样本，样本的大小为1000，而抽样结果任然为0.52和0.44，我们计算标准误差，其值为3.592，明显超过了1.96的置信区间。
由此可见，我们增加样本容量确实可以避免减少第二类错误的发生。不过，我们还是要注意到，当我们拒绝假设时候，第一类错误发生的可能性。
不过从实践的角度上说，即使统计上具有显著性，52%和44%是否具有政治上的显著性区别，还是得由政治家判断。。

11.三大抽样分布

以上的十个小节中，我们一直都在讨论频率派数理统计，对于伯努利分布的假设检验部分的讨论。

虽然我们知道，根据中心极限定理，独立同分布的实验进行多次后，考虑利用其均值和方差做标准化，所得到的结果是符合标准正态分布的。即便如此，在讨论不同问题的情况下，我们还是需要其它的标准分布。实际上，我们学过数理统计，知道 $\chi^2$ 分布，t分布和F分布这三大基础分布的地位。他们是在讨论不同问题下的标准分布。

在讨论rank的情况下，我们使用标准正态分布讨论问题。
在这里插入图片描述
在讨论均值（average)的时候，我们采用t分布。t分布和正态分布非常类似，t分布的不同在于考虑了额外的不确定性，使得分布形态更加松散，方差更大。

在讨论方差的时候（variance),例如估计人群身高的方差时，我们使用卡方分布，其形态如下：
在这里插入图片描述
当我们要比较两个分布的方差时，我们使用F-分布。例如我们需要考虑两群人的身高的多样性时，我们讨论两群人身高的比值，而不是他们的差。

具体的，我们进行相关假设检验的讨论时，也是采取相应的步骤：

分析问题，假设 null hypothesis，并希望拒绝假设；
设计实验，统计数据；考虑两类错误的容忍度。
做分布标准化，计算置信区间；
判断是否具有统计显著性、实践显著性。

据此，我们已经非常简略的，通过一些例子来回顾完毕了最最基础的数理统计内容。

应有光

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Statistics-6】——差异检验和三大分布

实际上，有些时候我们并不需要判别一个分布的值，而是知道两个分布之间的区别。10. Analyzing the Difference Between Two Groups Using Binomial Proportions还是这个例子，但是我们希望比较俩个城镇之间，对于各自的法案的支持程度，例如第一个镇的人风气比较自由主义做派，第二个镇的人的风气比较保守，那么他们关于类似法案的支持度，很有可能不一样。我们按照假设检验的标准步骤，完成这项调查。当然，我们可以分别估计他们两的情况，然后做出推断，但是这里我们
复制链接

扫一扫