文章目录
点估计(Point Estimate)
就是用样本统计量作为总体参数的估计,比如用样本均值/方差作为总体均值/方差的估计:想要估计学生平均成绩,从中抽取一个样本,样本平均值为85分,把85直接作为学生总体平均分的估计,85就是点估计。
区间估计(Interval Estimate)和置信水平(Confidence Level)
在点估计的基础上,在一定的置信水平下,给样本统计量加上一个区间范围作为总体参数的取值范围,这个区间叫置信区间(Confidence Interval)。
而置信水平是构造多次置信区间,其中包含了总体参数的置信区间占了多少比例?比如想要估计学生平均成绩,抽取了100个学生样本,这些样本构造了100个置信区间,有95个包含了总体平均分真实值,这时候置信水平就是95%, 显著性水平(Significance Level) α \alpha α则是0.05。 常用的置信水平包括90%,95%,99%。这里要注意,对“在95%的置信水平下总体平均分落在70到90分之间 ” 的一个常见的错误理解是:总体平均分的真实值有95%的概率落在70到90之间。这个“概率”的概念用在这里是不合适的:总体平均分是一个确定的数字而不是一个随机变量,一个确定的数字只有在和不在70到90之间两种情况,不存在“95%的概率”。这里的含义是多次抽样得到的置信区间中,有95%是包含总体平均分真实值。或者:总体均值落在70到90之间的可信程度是95%。
置信区间的特点:
1)当置信水平不变,样本量越大,置信区间越窄
2)当样本量不变,置信水平越高,置信区间越宽
直觉上理解:
1)较大的样本能提供更多信息,在同等可能性(置信水平)下,置信区间的宽度减小,也就是总体参数真实值可能的取值范围缩小。
2)当置信区间比较宽时,这个区间会有更大的可能性(置信水平)包含总体参数真实值。
单个参数的区间估计
总体均值的区间估计
上一篇总结文章中说过,对于均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,样本量为 n n n的总体:如果是正态分布,或者非正态总体但样本量足够大,样本均值 x ˉ \bar{x} xˉ的抽样分布服从均值 μ \mu μ,方差为 σ 2 \sigma^2 σ2,或 x ˉ − μ σ / n \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} σ/nxˉ−μ服从标准正态分布。
在 1 − α 1-\alpha 1−α的置信水平下:
z 1 − α / 2 ≤ x ˉ − μ σ / n ≤ z α / 2 z_{1-\alpha/2}\leq\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\leq z_{\alpha/2} z1−α/2≤σ/nxˉ−μ≤zα/2。
z α / 2 z_{\alpha/2} zα/2是标准正态分布时density曲线右侧面积为 α / 2 \alpha/2 α/2时 z z z的值, 同理可得 z 1 − α / 2 z_{1-\alpha/2} z1−α/2就是density曲线右侧面积为 1 − α / 2 1-\alpha/2 1−α/2时 z z z的值(也是左侧面积为 α / 2 \alpha/2 α/2时的 z z z值)。但因为是关于y轴的对称分布,有 z 1 − α / 2 = − z α / 2 z_{1-\alpha/2}=-z_{\alpha/2} z1−α/2=−zα/2。所以可以得到:
− z α / 2 σ n ≤ x ˉ − μ ≤ z α / 2 σ n -z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}\leq \bar{x}-\mu\leq z_{\alpha/2}\frac{ \sigma}{\sqrt{n}} −zα/2nσ≤xˉ−μ≤zα/2nσ
总体均值 μ \mu μ的置信区间为:
x ˉ ± z α / 2 σ n \bar{x}\pm z_{\alpha/2}\frac{ \sigma}{\sqrt{n}} xˉ±zα/2nσ
常用的
α
\alpha
α值有0.1,0.05和0.01(分别对应置信水平90%,95%和99%), 对应的
z
α
/
2
z_{\alpha/2}
zα/2值分别为
z
0.05
=
1.645
,
z
0.025
=
1.96
,
z
0.025
=
2.58
z_{0.05}=1.645,z_{0.025}=1.96,z_{0.025}=2.58
z0.05=1.645,z0.025=1.96,z0.025=2.58 。以最常用的
α
=
0.05
\alpha=0.05
α=0.05为例,有
z
0.025
=
1.96
,
z
0.975
=
−
z
0.025
=
−
1.96
z_{0.025}=1.96,z_{0.975}=-z_{0.025}=-1.96
z0.025=1.96,z0.975=−z0.025=−1.96。见下图:
图中两块阴影部分的面积都是0.025, 中间面积为0.95,对应经验法则中的“约有95%的数据落在平均数±2个标准差的范围内”,这里平均数为0,标准差为1。同时,
P
(
Z
≤
−
1.96
)
=
P
(
Z
≥
1.96
)
=
1
−
P
(
Z
≤
1.96
)
=
0.025
P(Z\leq-1.96)=P(Z\geq 1.96)=1-P(Z\leq1.96)=0.025
P(Z≤−1.96)=P(Z≥1.96)=1−P(Z≤1.96)=0.025。
上面的是对于方差已知的正态总体(不管是大样本还是小样本),或非正态大样本总体来说的(也就是说对于方差已知的大样本总体,不管是不是正态分布,或者方差已知的小样本正态总体)。如果大样本总体但方差未知,上面式子中的 σ \sigma σ就用样本方差 s s s来代替,变成 x ˉ ± ∣ z α / 2 ∣ s n \bar{x}\pm |z_{\alpha/2}|\frac{ s}{\sqrt{n}} xˉ±∣zα/2∣ns。
但如果是方差未知的小样本正态总体就不是用正态分布,而是用t分布来构造总体均值的置信区间: t = x ˉ − μ s / n ∼ t ( n − 1 ) t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim t(n-1) t=s/nxˉ−μ∼t(n−1)。则总体均值在 1 − α 1-\alpha 1−α置信水平下的置信区间为 x ˉ ± t α / 2 s n \bar{x}\pm t_{\alpha/2}\frac{ s}{\sqrt{n}} xˉ±tα/2ns, 其中 t α / 2 t_{\alpha/2} tα/2是t分布density曲线下右侧面积为 α / 2 \alpha/2 α/2时的t值,而且因为也是关于y轴的对称分布, t 1 − α / 2 = − t α / 2 t_{1-\alpha/2}=-t_{\alpha/2} t1−α/2=−tα/2,道理和上面的正态分布差不多。
总结一下总体均值的置信区间,有以下几种情况:
方差已知,大样本:正态分布,
σ
\sigma
σ
方差未知,大样本:正态分布,s
方差已知,小样本正态:正态分布,
σ
\sigma
σ
方差未知,小样本正态:t分布,s
总体比例的区间估计
总体比例指的是:想要估计一个学校中女生占的比例,随机抽取了100个学生,其中女生有50个,那么全校学生中女生的比例是多少?这个要求的比例就是总体比例。
在大样本的情况下,样本比例 p p p的抽样分布也近似符合正态分布,设总体比例为 π \pi π, 那么 p ∼ N ( π , π ( 1 − π ) n ) p\sim N(\pi, \frac{\pi(1-\pi)}{n}) p∼N(π,nπ(1−π))。与总体均值类似,可以得到 p − π π ( 1 − π ) / n ∼ N ( 0 , 1 ) \frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\sim N(0,1) π(1−π)/np−π∼N(0,1), 所以有:
− z α / 2 π ( 1 − π ) n ≤ p − π ≤ z α / 2 π ( 1 − π ) n -z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}} −zα/2nπ(1−π)≤p−π≤zα/2nπ(1−π)
因为总体比例 π \pi π未知,在实际计算的时候就用 p p p来代替:
− z α / 2 p ( 1 − p ) n ≤ p − π ≤ z α / 2 p ( 1 − p ) n -z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}} −zα/2np(1−p)≤p−π≤zα/2np(1−p)
所以总体比例 π \pi π在 1 − α 1-\alpha 1−α的置信水平下的置信区间为
p ± z α / 2 p ( 1 − p ) n p\pm z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}} p±zα/2np(1−p)。
总体方差的区间估计
对于满足分布为
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)的正态总体和样本
X
1
,
X
2
,
.
.
.
X
n
X_1,X_2,...X_n
X1,X2,...Xn, 样本方差
s
2
s^2
s2的抽样分布服从自由度为
n
−
1
n-1
n−1的卡方分布:
(
n
−
1
)
s
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)
σ2(n−1)s2∼χ2(n−1), 因此使用卡方分布来构造总体方差的置信区间。
在 1 − α 1-\alpha 1−α置信水平下:
χ 1 − α / 2 2 ≤ ( n − 1 ) s 2 σ 2 ≤ χ α / 2 2 \chi^2_{1-\alpha/2} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2} χ1−α/22≤σ2(n−1)s2≤χα/22
所以总体方差 σ 2 \sigma^2 σ2在在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
( n − 1 ) s 2 χ 1 − α / 2 2 ≤ σ 2 ≤ ( n − 1 ) s 2 χ α / 2 2 \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{\alpha/2}} χ1−α/22(n−1)s2≤σ2≤χα/22(n−1)s2
同理, χ α / 2 2 \chi^2_{\alpha/2} χα/22是卡方分布density曲线下右侧的面积为 α / 2 \alpha/2 α/2时 χ 2 \chi^2 χ2的值。当然,因为不是对称分布所以 χ 1 − α / 2 2 \chi^2_{1-\alpha/2} χ1−α/22不会等于 − χ α / 2 2 -\chi^2_{\alpha/2} −χα/22。
上面说的都是单个总体参数的区间估计,除此之外还有两个总体参数的区间估计。
两个参数的区间估计
两个总体均值之差的区间估计
又分为独立样本(Independent Sample)和匹配样本(Paired Sample)。
-
独立样本是从两个总体中分别抽取的两个样本,两个样本互相独立。比如分别独立抽取学校A和学校B的学生样本,想要估计同一场考试里的数学成绩平均分之差。
设总体A和总体B都是正态分布,或不是正态分布但都是大样本,总体均值分别为 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2,总体方差分别为 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22,样本量分别为 n 1 , n 2 n_1,n_2 n1,n2, 那么两个样本均值之差满足:
x 1 ˉ − x 2 ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \bar{x_1}-\bar{x_2}\sim N(\mu_1-\mu_2, \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) x1ˉ−x2ˉ∼N(μ1−μ2,n1σ12+n2σ22)
在 1 − α 1-\alpha 1−α置信水平下,总体均值之差的置信区间为
( x 1 ˉ − x 2 ˉ ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 (\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} (x1ˉ−x2ˉ)±zα/2n1σ12+n2σ22
而在小样本,正态分布,但方差未知的情况下,需要用到样本方差 s 1 2 , s 2 2 s_1^2,s_2^2 s12,s22, 又有两种情况:
-
总体方差未知但相等: σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22
在 1 − α 1-\alpha 1−α置信水平下,总体均值之差的置信区间为
( x 1 ˉ − x 2 ˉ ) ± t α / 2 ( n 1 + n 2 − 2 ) s p 2 ( 1 n 1 + 1 n 2 ) (\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2)\sqrt{s_p^2(\frac{1}{n_1}+\frac{1}{n_2})} (x1ˉ−x2ˉ)±tα/2(n1+n2−2)sp2(n11+n21), s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n2−2(n1−1)s12+(n2−1)s22
-
总体方差未知且不相等: σ 1 2 ≠ σ 2 2 \sigma_1^2\neq\sigma_2^2 σ12=σ22
在 1 − α 1-\alpha 1−α置信水平下,总体均值之差的置信区间为
( x 1 ˉ − x 2 ˉ ) ± t α / 2 ( v ) s 1 2 n 1 + s 2 2 n 2 (\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(v)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}} (x1ˉ−x2ˉ)±tα/2(v)n1s12+n2s22, v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}} v=n1−1(s12/n1)2+n2−1(s22/n2)2(n1s12+n2s22)2
-
匹配样本中,两个样本的对象相同。比如抽取一个学生样本,想要估计上了一门课程前后考试平均分数之差。
计算方法是先算出各差值 d i d_i di,然后算出各差值的均值 d ˉ \bar{d} dˉ和标准差 σ d \sigma_d σd,那么在 1 − α 1-\alpha 1−α置信水平下匹配样本总体均值之差的置信区间为
d ˉ ± z α / 2 σ d n \bar{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}} dˉ±zα/2nσd
两个总体比例之差的区间估计
设两个独立样本的样本比例分别为 p 1 p_1 p1和 p 2 p_2 p2, 总体比例分别为 π 1 \pi_1 π1和 π 2 \pi_2 π2,那么在 1 − α 1-\alpha 1−α置信水平下两个独立样本总体比例之差的置信区间为
( p 1 − p 2 ) ± z α / 2 p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 (p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} (p1−p2)±zα/2n1p1(1−p1)+n2p2(1−p2)
两个总体方差之比的区间估计
注意样本方差满足卡方分布,两个卡方分布之比是F分布,那么样本方差之比就是F分布了。
设两个独立样本的样本方差分别为 s 1 2 s_1^2 s12和 s 2 2 s_2^2 s22, 总体方差分别为 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22,样本方差之比 s 1 2 / s 2 2 s_1^2/s_2^2 s12/s22的抽样分布服从自由度为 n 1 − 1 , n 2 − 1 n_1-1,n_2-1 n1−1,n2−1的F分布: s 1 2 s 2 2 × σ 1 2 σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2}\sim F(n_1-1,n_2-1) s22s12×σ22σ12∼F(n1−1,n2−1), 因此使用F分布来构造总体方差之比的置信区间。
在 1 − α 1-\alpha 1−α置信水平下
F 1 − α / 2 ≤ s 1 2 s 2 2 × σ 1 2 σ 2 2 ≤ F α / 2 F_{1-\alpha/2} \leq \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2} \leq F_{\alpha/2} F1−α/2≤s22s12×σ22σ12≤Fα/2
所以在 1 − α 1-\alpha 1−α置信水平下,总体方差之比的置信区间为
s 1 2 / s 2 2 F 1 − α / 2 ≤ s 1 2 s 2 2 ≤ s 1 2 / s 2 2 F α / 2 \frac{s_1^2/s_2^2 }{F_{1-\alpha/2}}\leq \frac{s_1^2}{s_2^2} \leq \frac{s_1^2/s_2^2 }{F_{\alpha/2}} F1−α/2s12/s22≤s22s12≤Fα/2s12/s22