统计学复习笔记(三)—— 置信区间(总体均值/比例/方差,总体均值之差/比例之差/方差之比)

点估计(Point Estimate)

就是用样本统计量作为总体参数的估计,比如用样本均值/方差作为总体均值/方差的估计:想要估计学生平均成绩,从中抽取一个样本,样本平均值为85分,把85直接作为学生总体平均分的估计,85就是点估计。

区间估计(Interval Estimate)和置信水平(Confidence Level)

在点估计的基础上,在一定的置信水平下,给样本统计量加上一个区间范围作为总体参数的取值范围,这个区间叫置信区间(Confidence Interval)

置信水平是构造多次置信区间,其中包含了总体参数的置信区间占了多少比例?比如想要估计学生平均成绩,抽取了100个学生样本,这些样本构造了100个置信区间,有95个包含了总体平均分真实值,这时候置信水平就是95%, 显著性水平(Significance Level) α \alpha α则是0.05。 常用的置信水平包括90%,95%,99%。这里要注意,对“在95%的置信水平下总体平均分落在70到90分之间 ” 的一个常见的错误理解是:总体平均分的真实值有95%的概率落在70到90之间。这个“概率”的概念用在这里是不合适的:总体平均分是一个确定的数字而不是一个随机变量,一个确定的数字只有在和不在70到90之间两种情况,不存在“95%的概率”。这里的含义是多次抽样得到的置信区间中,有95%是包含总体平均分真实值。或者:总体均值落在70到90之间的可信程度是95%。

置信区间的特点:

1)当置信水平不变,样本量越大,置信区间越窄
2)当样本量不变,置信水平越高,置信区间越宽

直觉上理解:

1)较大的样本能提供更多信息,在同等可能性(置信水平)下,置信区间的宽度减小,也就是总体参数真实值可能的取值范围缩小。
2)当置信区间比较宽时,这个区间会有更大的可能性(置信水平)包含总体参数真实值。

单个参数的区间估计

总体均值的区间估计

上一篇总结文章中说过,对于均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,样本量为 n n n的总体:如果是正态分布,或者非正态总体但样本量足够大,样本均值 x ˉ \bar{x} xˉ的抽样分布服从均值 μ \mu μ,方差为 σ 2 \sigma^2 σ2,或 x ˉ − μ σ / n \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} σ/n xˉμ服从标准正态分布。

1 − α 1-\alpha 1α的置信水平下:

z 1 − α / 2 ≤ x ˉ − μ σ / n ≤ z α / 2 z_{1-\alpha/2}\leq\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\leq z_{\alpha/2} z1α/2σ/n xˉμzα/2

z α / 2 z_{\alpha/2} zα/2是标准正态分布时density曲线右侧面积为 α / 2 \alpha/2 α/2 z z z的值, 同理可得 z 1 − α / 2 z_{1-\alpha/2} z1α/2就是density曲线右侧面积 1 − α / 2 1-\alpha/2 1α/2 z z z的值(也是左侧面积 α / 2 \alpha/2 α/2时的 z z z值)。但因为是关于y轴的对称分布,有 z 1 − α / 2 = − z α / 2 z_{1-\alpha/2}=-z_{\alpha/2} z1α/2=zα/2。所以可以得到:

− z α / 2 σ n ≤ x ˉ − μ ≤ z α / 2 σ n -z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}\leq \bar{x}-\mu\leq z_{\alpha/2}\frac{ \sigma}{\sqrt{n}} zα/2n σxˉμzα/2n σ

总体均值 μ \mu μ的置信区间为:

x ˉ ± z α / 2 σ n \bar{x}\pm z_{\alpha/2}\frac{ \sigma}{\sqrt{n}} xˉ±zα/2n σ

常用的 α \alpha α值有0.1,0.05和0.01(分别对应置信水平90%,95%和99%), 对应的 z α / 2 z_{\alpha/2} zα/2值分别为 z 0.05 = 1.645 , z 0.025 = 1.96 , z 0.025 = 2.58 z_{0.05}=1.645,z_{0.025}=1.96,z_{0.025}=2.58 z0.05=1.645,z0.025=1.96,z0.025=2.58 。以最常用的 α = 0.05 \alpha=0.05 α=0.05为例,有 z 0.025 = 1.96 , z 0.975 = − z 0.025 = − 1.96 z_{0.025}=1.96,z_{0.975}=-z_{0.025}=-1.96 z0.025=1.96,z0.975=z0.025=1.96。见下图:
partly shaded normal density plot 图中两块阴影部分的面积都是0.025, 中间面积为0.95,对应经验法则中的“约有95%的数据落在平均数±2个标准差的范围内”,这里平均数为0,标准差为1。同时, P ( Z ≤ − 1.96 ) = P ( Z ≥ 1.96 ) = 1 − P ( Z ≤ 1.96 ) = 0.025 P(Z\leq-1.96)=P(Z\geq 1.96)=1-P(Z\leq1.96)=0.025 P(Z1.96)=P(Z1.96)=1P(Z1.96)=0.025

上面的是对于方差已知的正态总体(不管是大样本还是小样本),或非正态大样本总体来说的(也就是说对于方差已知的大样本总体,不管是不是正态分布,或者方差已知的小样本正态总体)。如果大样本总体但方差未知,上面式子中的 σ \sigma σ就用样本方差 s s s来代替,变成 x ˉ ± ∣ z α / 2 ∣ s n \bar{x}\pm |z_{\alpha/2}|\frac{ s}{\sqrt{n}} xˉ±zα/2n s

但如果是方差未知的小样本正态总体就不是用正态分布,而是用t分布来构造总体均值的置信区间: t = x ˉ − μ s / n ∼ t ( n − 1 ) t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim t(n-1) t=s/n xˉμt(n1)。则总体均值在 1 − α 1-\alpha 1α置信水平下的置信区间为 x ˉ ± t α / 2 s n \bar{x}\pm t_{\alpha/2}\frac{ s}{\sqrt{n}} xˉ±tα/2n s, 其中 t α / 2 t_{\alpha/2} tα/2是t分布density曲线下右侧面积为 α / 2 \alpha/2 α/2时的t值,而且因为也是关于y轴的对称分布, t 1 − α / 2 = − t α / 2 t_{1-\alpha/2}=-t_{\alpha/2} t1α/2=tα/2,道理和上面的正态分布差不多。

总结一下总体均值的置信区间,有以下几种情况:
方差已知,大样本:正态分布, σ \sigma σ
方差未知,大样本:正态分布,s
方差已知,小样本正态:正态分布, σ \sigma σ
方差未知,小样本正态:t分布,s

总体比例的区间估计

总体比例指的是:想要估计一个学校中女生占的比例,随机抽取了100个学生,其中女生有50个,那么全校学生中女生的比例是多少?这个要求的比例就是总体比例。

大样本的情况下,样本比例 p p p的抽样分布也近似符合正态分布,设总体比例为 π \pi π, 那么 p ∼ N ( π , π ( 1 − π ) n ) p\sim N(\pi, \frac{\pi(1-\pi)}{n}) pN(π,nπ(1π))。与总体均值类似,可以得到 p − π π ( 1 − π ) / n ∼ N ( 0 , 1 ) \frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\sim N(0,1) π(1π)/n pπN(0,1), 所以有:

− z α / 2 π ( 1 − π ) n ≤ p − π ≤ z α / 2 π ( 1 − π ) n -z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}} zα/2nπ(1π) pπzα/2nπ(1π)

因为总体比例 π \pi π未知,在实际计算的时候就用 p p p来代替:

− z α / 2 p ( 1 − p ) n ≤ p − π ≤ z α / 2 p ( 1 − p ) n -z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}} zα/2np(1p) pπzα/2np(1p)

所以总体比例 π \pi π 1 − α 1-\alpha 1α的置信水平下的置信区间为

p ± z α / 2 p ( 1 − p ) n p\pm z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}} p±zα/2np(1p)

总体方差的区间估计

对于满足分布为 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的正态总体和样本 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn, 样本方差 s 2 s^2 s2的抽样分布服从自由度为 n − 1 n-1 n1卡方分布
( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1) σ2(n1)s2χ2(n1), 因此使用卡方分布来构造总体方差的置信区间。

1 − α 1-\alpha 1α置信水平下:

χ 1 − α / 2 2 ≤ ( n − 1 ) s 2 σ 2 ≤ χ α / 2 2 \chi^2_{1-\alpha/2} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2} χ1α/22σ2(n1)s2χα/22

所以总体方差 σ 2 \sigma^2 σ2在在 1 − α 1-\alpha 1α置信水平下的置信区间为:

( n − 1 ) s 2 χ 1 − α / 2 2 ≤ σ 2 ≤ ( n − 1 ) s 2 χ α / 2 2 \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{\alpha/2}} χ1α/22(n1)s2σ2χα/22(n1)s2

同理, χ α / 2 2 \chi^2_{\alpha/2} χα/22是卡方分布density曲线下右侧的面积为 α / 2 \alpha/2 α/2 χ 2 \chi^2 χ2的值。当然,因为不是对称分布所以 χ 1 − α / 2 2 \chi^2_{1-\alpha/2} χ1α/22不会等于 − χ α / 2 2 -\chi^2_{\alpha/2} χα/22

上面说的都是单个总体参数的区间估计,除此之外还有两个总体参数的区间估计。

两个参数的区间估计

两个总体均值之差的区间估计

又分为独立样本(Independent Sample)和匹配样本(Paired Sample)。

  • 独立样本是从两个总体中分别抽取的两个样本,两个样本互相独立。比如分别独立抽取学校A和学校B的学生样本,想要估计同一场考试里的数学成绩平均分之差。

    设总体A和总体B都是正态分布,或不是正态分布但都是大样本,总体均值分别为 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2,总体方差分别为 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22,样本量分别为 n 1 , n 2 n_1,n_2 n1,n2, 那么两个样本均值之差满足:

    x 1 ˉ − x 2 ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \bar{x_1}-\bar{x_2}\sim N(\mu_1-\mu_2, \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) x1ˉx2ˉN(μ1μ2,n1σ12+n2σ22)

    1 − α 1-\alpha 1α置信水平下,总体均值之差的置信区间为

    ( x 1 ˉ − x 2 ˉ ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 (\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} (x1ˉx2ˉ)±zα/2n1σ12+n2σ22

    而在小样本,正态分布,但方差未知的情况下,需要用到样本方差 s 1 2 , s 2 2 s_1^2,s_2^2 s12,s22, 又有两种情况:

  1. 总体方差未知但相等: σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22

    1 − α 1-\alpha 1α置信水平下,总体均值之差的置信区间为

    ( x 1 ˉ − x 2 ˉ ) ± t α / 2 ( n 1 + n 2 − 2 ) s p 2 ( 1 n 1 + 1 n 2 ) (\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2)\sqrt{s_p^2(\frac{1}{n_1}+\frac{1}{n_2})} (x1ˉx2ˉ)±tα/2(n1+n22)sp2(n11+n21) , s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)s22

  2. 总体方差未知且不相等: σ 1 2 ≠ σ 2 2 \sigma_1^2\neq\sigma_2^2 σ12=σ22

    1 − α 1-\alpha 1α置信水平下,总体均值之差的置信区间为

    ( x 1 ˉ − x 2 ˉ ) ± t α / 2 ( v ) s 1 2 n 1 + s 2 2 n 2 (\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(v)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}} (x1ˉx2ˉ)±tα/2(v)n1s12+n2s22 , v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}} v=n11(s12/n1)2+n21(s22/n2)2(n1s12+n2s22)2

  • 匹配样本中,两个样本的对象相同。比如抽取一个学生样本,想要估计上了一门课程前后考试平均分数之差。

    计算方法是先算出各差值 d i d_i di,然后算出各差值的均值 d ˉ \bar{d} dˉ和标准差 σ d \sigma_d σd,那么在 1 − α 1-\alpha 1α置信水平下匹配样本总体均值之差的置信区间为

    d ˉ ± z α / 2 σ d n \bar{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}} dˉ±zα/2n σd

两个总体比例之差的区间估计

设两个独立样本的样本比例分别为 p 1 p_1 p1 p 2 p_2 p2, 总体比例分别为 π 1 \pi_1 π1 π 2 \pi_2 π2,那么在 1 − α 1-\alpha 1α置信水平下两个独立样本总体比例之差的置信区间为

( p 1 − p 2 ) ± z α / 2 p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 (p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} (p1p2)±zα/2n1p1(1p1)+n2p2(1p2)

两个总体方差之比的区间估计

注意样本方差满足卡方分布,两个卡方分布之比是F分布,那么样本方差之比就是F分布了。

设两个独立样本的样本方差分别为 s 1 2 s_1^2 s12 s 2 2 s_2^2 s22, 总体方差分别为 σ 1 2 \sigma_1^2 σ12 σ 2 2 \sigma_2^2 σ22样本方差之比 s 1 2 / s 2 2 s_1^2/s_2^2 s12/s22的抽样分布服从自由度为 n 1 − 1 , n 2 − 1 n_1-1,n_2-1 n11,n21F分布 s 1 2 s 2 2 × σ 1 2 σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2}\sim F(n_1-1,n_2-1) s22s12×σ22σ12F(n11,n21), 因此使用F分布来构造总体方差之比的置信区间。

1 − α 1-\alpha 1α置信水平下

F 1 − α / 2 ≤ s 1 2 s 2 2 × σ 1 2 σ 2 2 ≤ F α / 2 F_{1-\alpha/2} \leq \frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2} \leq F_{\alpha/2} F1α/2s22s12×σ22σ12Fα/2

所以在 1 − α 1-\alpha 1α置信水平下,总体方差之比的置信区间为

s 1 2 / s 2 2 F 1 − α / 2 ≤ s 1 2 s 2 2 ≤ s 1 2 / s 2 2 F α / 2 \frac{s_1^2/s_2^2 }{F_{1-\alpha/2}}\leq \frac{s_1^2}{s_2^2} \leq \frac{s_1^2/s_2^2 }{F_{\alpha/2}} F1α/2s12/s22s22s12Fα/2s12/s22

  • 61
    点赞
  • 241
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值