统计学复习笔记（三）—— 置信区间(总体均值/比例/方差，总体均值之差/比例之差/方差之比)

最新推荐文章于 2025-02-17 23:44:50 发布

雪国_

最新推荐文章于 2025-02-17 23:44:50 发布

阅读量8.1w

点赞数 77

文章标签：数据分析统计学

本文链接：https://blog.csdn.net/weixin_46490424/article/details/105220826

版权

本文深入探讨了统计学中的区间估计方法，包括点估计、区间估计的概念，置信水平的解释，以及不同参数如均值、比例、方差的区间估计公式。特别关注了置信区间的宽度与样本量、置信水平的关系，以及如何利用正态分布、t分布、卡方分布和F分布进行参数估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

点估计（Point Estimate）

就是用样本统计量作为总体参数的估计，比如用样本均值/方差作为总体均值/方差的估计：想要估计学生平均成绩，从中抽取一个样本，样本平均值为85分，把85直接作为学生总体平均分的估计，85就是点估计。

区间估计（Interval Estimate）和置信水平（Confidence Level）

在点估计的基础上，在一定的置信水平下，给样本统计量加上一个区间范围作为总体参数的取值范围，这个区间叫置信区间（Confidence Interval）。

而置信水平是构造多次置信区间，其中包含了总体参数的置信区间占了多少比例？比如想要估计学生平均成绩，抽取了100个学生样本，这些样本构造了100个置信区间，有95个包含了总体平均分真实值，这时候置信水平就是95%, 显著性水平（Significance Level） $\alpha$ 则是0.05。常用的置信水平包括90%，95%，99%。这里要注意，对“在95%的置信水平下总体平均分落在70到90分之间 ” 的一个常见的错误理解是：总体平均分的真实值有95%的概率落在70到90之间。这个“概率”的概念用在这里是不合适的：总体平均分是一个确定的数字而不是一个随机变量，一个确定的数字只有在和不在70到90之间两种情况，不存在“95%的概率”。这里的含义是多次抽样得到的置信区间中，有95%是包含总体平均分真实值。或者：总体均值落在70到90之间的可信程度是95%。

置信区间的特点：

1）当置信水平不变，样本量越大，置信区间越窄
2）当样本量不变，置信水平越高，置信区间越宽

直觉上理解：

1）较大的样本能提供更多信息，在同等可能性（置信水平）下，置信区间的宽度减小，也就是总体参数真实值可能的取值范围缩小。
2）当置信区间比较宽时，这个区间会有更大的可能性（置信水平）包含总体参数真实值。

单个参数的区间估计

总体均值的区间估计

上一篇总结文章中说过，对于均值为 $\mu$ ,方差为 $\sigma^2$ ,样本量为 $n$ 的总体：如果是正态分布，或者非正态总体但样本量足够大，样本均值 $\bar{x}$ 的抽样分布服从均值 $\mu$ ，方差为 $\sigma^2$ ，或 $\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}$ 服从标准正态分布。

在 $1-\alpha$ 的置信水平下：

$z_{1-\alpha/2}\leq\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\leq z_{\alpha/2}$ 。

$z_{\alpha/2}$ 是标准正态分布时density曲线右侧面积为 $\alpha/2$ 时 $z$ 的值, 同理可得 $z_{1-\alpha/2}$ 就是density曲线右侧面积为 $1-\alpha/2$ 时 $z$ 的值（也是左侧面积为 $\alpha/2$ 时的 $z$ 值）。但因为是关于y轴的对称分布，有 $z_{1-\alpha/2}=-z_{\alpha/2}$ 。所以可以得到：

$-z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}\leq \bar{x}-\mu\leq z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}$

总体均值 $\mu$ 的置信区间为：

$\bar{x}\pm z_{\alpha/2}\frac{ \sigma}{\sqrt{n}}$

常用的 $\alpha$ 值有0.1，0.05和0.01(分别对应置信水平90%，95%和99%), 对应的 $z_{\alpha/2}$ 值分别为 $z_{0.05}=1.645,z_{0.025}=1.96,z_{0.025}=2.58$ 。以最常用的 $\alpha=0.05$ 为例，有 $z_{0.025}=1.96,z_{0.975}=-z_{0.025}=-1.96$ 。见下图：
partly shaded normal density plot 图中两块阴影部分的面积都是0.025, 中间面积为0.95，对应经验法则中的“约有95%的数据落在平均数±2个标准差的范围内”，这里平均数为0，标准差为1。同时， $P(Z\leq-1.96)=P(Z\geq 1.96)=1-P(Z\leq1.96)=0.025$ 。

上面的是对于方差已知的正态总体（不管是大样本还是小样本），或非正态大样本总体来说的（也就是说对于方差已知的大样本总体，不管是不是正态分布，或者方差已知的小样本正态总体）。如果大样本总体但方差未知，上面式子中的 $\sigma$ 就用样本方差 $s$ 来代替，变成 $\bar{x}\pm |z_{\alpha/2}|\frac{ s}{\sqrt{n}}$ 。

但如果是方差未知的小样本正态总体就不是用正态分布，而是用t分布来构造总体均值的置信区间： $t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim t(n-1)$ 。则总体均值在 $1-\alpha$ 置信水平下的置信区间为 $\bar{x}\pm t_{\alpha/2}\frac{ s}{\sqrt{n}}$ , 其中 $t_{\alpha/2}$ 是t分布density曲线下右侧面积为 $\alpha/2$ 时的t值，而且因为也是关于y轴的对称分布， $t_{1-\alpha/2}=-t_{\alpha/2}$ ,道理和上面的正态分布差不多。

总结一下总体均值的置信区间，有以下几种情况：
方差已知，大样本：正态分布， $\sigma$
方差未知，大样本：正态分布，s
方差已知，小样本正态：正态分布， $\sigma$
方差未知，小样本正态：t分布，s

总体比例的区间估计

总体比例指的是：想要估计一个学校中女生占的比例，随机抽取了100个学生，其中女生有50个，那么全校学生中女生的比例是多少？这个要求的比例就是总体比例。

在大样本的情况下，样本比例 $p$ 的抽样分布也近似符合正态分布，设总体比例为 $\pi$ , 那么 $p\sim N(\pi, \frac{\pi(1-\pi)}{n})$ 。与总体均值类似，可以得到 $\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\sim N(0,1)$ , 所以有：

$-z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{\pi(1-\pi) }{n}}$

因为总体比例 $\pi$ 未知，在实际计算的时候就用 $p$ 来代替：

$-z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}\leq p-\pi\leq z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}$

所以总体比例 $\pi$ 在 $1-\alpha$ 的置信水平下的置信区间为

$p\pm z_{\alpha/2}\sqrt{\frac{p(1-p) }{n}}$ 。

总体方差的区间估计

对于满足分布为 $N(\mu,\sigma^2)$ 的正态总体和样本 $X_1,X_2,...X_n$ , 样本方差 $s^2$ 的抽样分布服从自由度为 $n - 1$ 的卡方分布：
$\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)$ , 因此使用卡方分布来构造总体方差的置信区间。

在 $1-\alpha$ 置信水平下：

$\chi^2_{1-\alpha/2} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2}$

所以总体方差 $\sigma^2$ 在在 $1-\alpha$ 置信水平下的置信区间为：

$\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{\alpha/2}}$

同理， $\chi^2_{\alpha/2}$ 是卡方分布density曲线下右侧的面积为 $\alpha/2$ 时 $\chi^2$ 的值。当然，因为不是对称分布所以 $\chi^2_{1-\alpha/2}$ 不会等于 $-\chi^2_{\alpha/2}$ 。

上面说的都是单个总体参数的区间估计，除此之外还有两个总体参数的区间估计。

两个参数的区间估计

两个总体均值之差的区间估计

又分为独立样本(Independent Sample)和匹配样本(Paired Sample)。

独立样本是从两个总体中分别抽取的两个样本，两个样本互相独立。比如分别独立抽取学校A和学校B的学生样本，想要估计同一场考试里的数学成绩平均分之差。

设总体A和总体B都是正态分布，或不是正态分布但都是大样本，总体均值分别为 $\mu_1,\mu_2$ ，总体方差分别为 $\sigma_1^2,\sigma_2^2$ ，样本量分别为 $n_1,n_2$ ，那么两个样本均值之差满足：

$\bar{x_1}-\bar{x_2}\sim N(\mu_1-\mu_2, \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$

在 $1-\alpha$ 置信水平下，总体均值之差的置信区间为

$(\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$

而在小样本，正态分布，但方差未知的情况下，需要用到样本方差 $s_1^2,s_2^2$ , 又有两种情况：

总体方差未知但相等: $\sigma_1^2=\sigma_2^2$

在 $1-\alpha$ 置信水平下，总体均值之差的置信区间为

$(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2)\sqrt{s_p^2(\frac{1}{n_1}+\frac{1}{n_2})}$ , $s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$
总体方差未知且不相等: $\sigma_1^2\neq\sigma_2^2$

在 $1-\alpha$ 置信水平下，总体均值之差的置信区间为

$(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(v)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$ , $v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}$

匹配样本中，两个样本的对象相同。比如抽取一个学生样本，想要估计上了一门课程前后考试平均分数之差。

计算方法是先算出各差值 $d_i$ ,然后算出各差值的均值 $\bar{d}$ 和标准差 $\sigma_d$ ,那么在 $1-\alpha$ 置信水平下匹配样本总体均值之差的置信区间为

$\bar{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}}$

两个总体比例之差的区间估计

设两个独立样本的样本比例分别为 $p_1$ 和 $p_2$ , 总体比例分别为 $\pi_1$ 和 $\pi_2$ ，那么在 $1-\alpha$ 置信水平下两个独立样本总体比例之差的置信区间为

$(p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$

两个总体方差之比的区间估计

注意样本方差满足卡方分布，两个卡方分布之比是F分布，那么样本方差之比就是F分布了。

设两个独立样本的样本方差分别为 $s_1^2$ 和 $s_2^2$ , 总体方差分别为 $\sigma_1^2$ 和 $\sigma_2^2$ ，样本方差之比 $s_1^2/s_2^2$ 的抽样分布服从自由度为 $n_1-1,n_2-1$ 的F分布： $\frac{s_1^2}{s_2^2}\times \frac{\sigma_1^2}{\sigma_2^2}\sim F(n_1-1,n_2-1)$ , 因此使用F分布来构造总体方差之比的置信区间。