我们发现点估计量是用于估计总体参数的样本统计量。例如,样本均值是总体均值的点估计量,样本比率是总体比率的点估计量。因为我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差( marginal of error)的值来计算区间估计( interval estimate)。区间估计的一般形式如下:
总体均值的区间估计:总体标准差已知情形
计算样本的标准差
需要95%
构造置信区间
95%是置信水平(confidence level),0.95是置信系数(confidence coefficient),得到的区间是95%置信区间(confidence interval)
总公式:
总体均值的区间估计:总体标准差未知情形
在建立总体均值的区间估计时,我们通常并没有关于总体标准差的一个好的估计。在这种情形下,我们必须利用同一样本估计总体均值和总体标准差两个未知参数。当利用样本标准差估计总体标准差时,边际误差和总体均值的区间估计都以t分布( t distribution)的概率分布为依据进行的。虽然t分布的数学推导以假设抽样总体服从正态分布为依据,但是研究表明在许多总体分布显著偏离正态分布的情形下,利用t分布的效果还是相当不错的。当总体分布不是正态分布时,在本节稍后我们给出应用t分布的建议。
t分布是由一类相似的概率分布组成的分布族,某个特定的t分布依赖于称为自由度( degrees of freedom)的参数。当自由度分别为1,2,3,…时,有且仅有唯一的t分布与之相对应。随着自由度的增大,t分布与标准正态分布之间的差别变得越来越小。图8-4给出了自由度分别为10和20时的t分布与标准正态概率分布的关系。我们注意,随着自由度的增大,t分布的变异幅度减小,与标准正态分布也越来越相似。还注意到,t分布的均值为0。
当自由度超过100时,自由度为无穷的那一行可以用于近似实际的t值。
由于用样本标准差作为总体标准差的估计值,所以在式(8-2)中与t值对应的自由度为n-1。
样本标准差的公式为:
自由度的详细解释
应用中的建议
如果总体服从正态分布,式(8-2)所给出的置信区间是精确的,并且适用于任何样本容量。如果总体不服从正态分布,则式(8-2)所给出的置信区间是近似的。在这种情形下,近似的程度依赖于总体分布和样本容量。在绝大部分应用中,当利用式(8-2)建立总体均值的区间估计时,样本容量n≥30已经足够大。然而,如果总体分布严重偏斜或者包含异常点,绝大部分统计学家建议将样本容量增加到50或者更大。如果总体的分布不是正态分布但是大致对称,则在样本容量为15时便能得到置信区间的一个好的近似。仅当分析人员坚信或者愿意假设总体分布至少近似正态时,才可以在更小的样本容量下使用式(8-2)。
样本容量的确定
希望达到的边际误差
总体均值区间估计中的样本容量
但如果总体标准差是未知的怎么办呢
可以给出初始值或计划值来作为总体标准差
1.根据以前研究中的数据计算总体标准差的估计值作为总体标准差的计划值。
2.利用实验性研究,选取一个初始样本,以初始样本的标准差作为总体标准差的计划值。
3.对总体标准差值进行判断或最优猜测。例如,我们可以分别估计总体的最大值和最小值,两者之差是对数据极差的估计。一般建议将极差除以4作为总体标准差的粗略估计,从而最终得到一个可以接受的总体标准差的计划值。
总体比率
样本比率的抽样分布
边际误差
总体比率的区间估计
样本容量的确定
因为样本比率是未知的,因此需要一个计划值
可通过如下方法来确定计划值
(1)用以前相同或类似样本的样本比率来代替。
(2)利用实验性的研究,选取一个初始样本,以该样本的样本比率作为计划值
(3)使用判断或最优猜测作为计划值。
(4)如果上述方法均不适用,则取计划值=0.5