实际上,有些时候我们并不需要判别一个分布的值,而是知道两个分布之间的区别。
10. Analyzing the Difference Between Two Groups Using Binomial Proportions
还是这个例子,但是我们希望比较俩个城镇之间,对于各自的法案的支持程度,例如第一个镇的人风气比较自由主义做派,第二个镇的人的风气比较保守,那么他们关于类似法案的支持度,很有可能不一样。我们按照假设检验的标准步骤,完成这项调查。当然,我们可以分别估计他们两的情况,然后做出推断,但是这里我们采取把他们两个放在一起看的方案。
确立假设
首先,我们假设“两个城镇的人对于决议的支持度相同”。这是符合之前假设检验的规则的,我们希望排除这个假设。
这里我们要考虑的随机变量,就是两个镇分别抽样后,计算得到比例并做减法。
由于我们还是站在上帝视角来完成实验,因此我们实现先假设两个镇的支持率都是0.5,然后我们进行实验模拟。
抽样实验
我们选取样本大小为100,进行上一小节中的计算,并且执行重复实验非常多次,我们得到结果如下:
注意到,由于样本容量比较小,而且置信区间是95%,因此第二类错误的可能性比较大。也就是说事实上,两个分布的情况是不同的,但是我们还是接受了假设(没拒绝假设)。
计算
注意,这里由于涉及到两个分布,而且实际上两个分布是独立的。我没学过概率论,知道:
D
(
X
−
Y
)
=
D
(
X
)
+
D
(
Y
)
−
2
E
[
(
X
−
E
[
x
]
)
(
Y
−
E
(
Y
)
]
D(X-Y)=D(X)+D(Y)-2E[(X-E[x])(Y-E(Y)]
D(X−Y)=D(X)+D(Y)−2E[(X−E[x])(Y−E(Y)]
其中这里由于独立性关系,协方差是0,所以我们的抽样分布的标准差,如下书写:
p
1
(
1
−
p
1
)
n
1
+
p
2
(
1
−
p
2
)
n
2
\sqrt{ {p_1(1-p_1) \over n_1}+{p_2(1-p_2) \over n_2}}
n1p1(1−p1)+n2p2(1−p2)
我们依据95%的置信区间的计算公式,代入计算:
0
±
1.96
∗
.
5
(
1
−
.
5
)
100
+
.
5
(
1
−
.
5
)
100
=
0
±
0.14
0 \pm 1.96 *\sqrt{ {.5(1-.5) \over 100}+{.5(1-.5) \over 100}}=0\pm0.14
0±1.96∗100.5(1−.5)+100.5(1−.5)=0±0.14
“巧了”,和上面没有进行标准化的实验结果是符合的。如果我们的抽样结果是0.52和0.44,那么二者之差是0.08,其位于置信区间之间。(注意,这是没有标准化后的结果,不要弄混淆)
现在我们不再采用上帝视角观察问题,我们利用公式:
p
1
−
p
2
p
1
(
1
−
p
1
)
n
1
+
p
2
(
1
−
p
2
)
n
2
p_1 -p_2 \over{ \sqrt{ {p_1(1-p_1) \over n_1}+{p_2(1-p_2) \over n_2}}}
n1p1(1−p1)+n2p2(1−p2)p1−p2
得到经过归一化后的标准差。具体的,对于这个问题,其值为1.136.
我们发现,其位于标准正态分布的1.96的95%置信区间内。
这时候,其实有一点尴尬的问题,52%和44%在我们看来实际上是很大的差别(具有实践统计性差异),但是我们现在通过统计的方法,认为二者不具有统计显著性。那么我们是否应该认为二者具有显著性的差异呢?
其实主要问题就是,抽样大小仅仅为100,实在是太小了,这使得我们很容易犯第二类错误:即明明两个分布不相同,但是我们却认为他们相同(不排除他们不相同)。
虽然1000.48和1000.44都大于10,但是还是不行。
第二次实验
如果这时我们再进行一次抽样,我们知道结果是52%和34%。这次我们利用公式:
p
1
−
p
2
p
1
(
1
−
p
1
)
n
1
+
p
2
(
1
−
p
2
)
n
2
p_1 -p_2 \over{ \sqrt{ {p_1(1-p_1) \over n_1}+{p_2(1-p_2) \over n_2}}}
n1p1(1−p1)+n2p2(1−p2)p1−p2
计算得到结果(注意,这是标准化后的标准差,不要弄混淆!),其结果为3.592,其在标准分布的95%置信区间的2.614外部。那么我们就拒绝假设。
不过注意到52%和34%实在差别过大,有这样的结果从直觉上都可以说二者的分布不一样了。
第三次实验
过了一个月,我们收集了足够的样本,样本的大小为1000,而抽样结果任然为0.52和0.44,我们计算标准误差,其值为3.592,明显超过了1.96的置信区间。
由此可见,我们增加样本容量确实可以避免减少第二类错误的发生。不过,我们还是要注意到,当我们拒绝假设时候,第一类错误发生的可能性。
不过从实践的角度上说,即使统计上具有显著性,52%和44%是否具有政治上的显著性区别,还是得由政治家判断。。
11.三大抽样分布
以上的十个小节中,我们一直都在讨论频率派数理统计,对于伯努利分布的假设检验部分的讨论。
虽然我们知道,根据中心极限定理,独立同分布的实验进行多次后,考虑利用其均值和方差做标准化,所得到的结果是符合标准正态分布的。即便如此,在讨论不同问题的情况下,我们还是需要其它的标准分布
。实际上,我们学过数理统计,知道
χ
2
\chi^2
χ2分布,t分布和F分布这三大基础分布的地位。他们是在讨论不同问题下的标准分布。
在讨论rank的情况下,我们使用标准正态分布讨论问题。
在讨论均值(average)的时候,我们采用t分布。t分布和正态分布非常类似,t分布的不同在于考虑了额外的不确定性,使得分布形态更加松散,方差更大。
在讨论方差的时候(variance),例如估计人群身高的方差时,我们使用卡方分布,其形态如下:
当我们要比较两个分布的方差时,我们使用F-分布。例如我们需要考虑两群人的身高的多样性时,我们讨论两群人身高的比值,而不是他们的差。
具体的,我们进行相关假设检验的讨论时,也是采取相应的步骤:
- 分析问题,假设 null hypothesis,并希望拒绝假设;
- 设计实验,统计数据;考虑两类错误的容忍度。
- 做分布标准化,计算置信区间;
- 判断是否具有统计显著性、实践显著性。
据此,我们已经非常简略的,通过一些例子来回顾完毕了最最基础的数理统计内容。