如何根据样本估计总体的均值、比例与方差?如何进行参数估计及选择对应公式?

本章介绍了参数估计的相关概念,包括估计量与估计值、点估计与区间估计。重点讲解了如何根据样本估计总体的均值、比例和方差的区间范围,涉及正态分布、t分布和χ2分布的选择。同时,讨论了样本量的确定方法,指出样本量与置信水平、总体方差和估计误差的关系。
摘要由CSDN通过智能技术生成

本章内容:

  1. 相关专业名词解释
  2. 如何估计一个总体参数的范围,及如何选择对应的公式?
  3. 如何估计两个总体参数的范围,及如何选择对应的公式?
  4. 如何确定总体估计时需要的样本量?

7.1 涉及的专业名词解释

7.1.1 估计量与估计值_名词解释

📌 参数估计
用样本统计量去估计总体的参数。

📌 估计量
用来估计总体参数的统计量称为估计量,用 θ ^ \hat{\theta} θ^表示。样本均值、样本比例、样本方差都可以是一个估计量。

📌 估计值
根据一个具体的样本计算出来的估计量的数值,称为估计值。比如用样本量计算出来的平均值作为总体的平均值,那么这个平均值在这时就称为估计值。


7.1.2 点估计与区间估计

💡 excel中计算指定概率对应的面积公式:=normsinv(指定的概率)
例:当显著性为5%时, Z α / 2 = n o r m s i n v ( 1 − 5 % 2 ) = n o r m s i n v ( 0.975 ) Z_{\alpha/2}=normsinv(1-\frac{5\%}{2})=normsinv(0.975) Zα/2=normsinv(125%)=normsinv(0.975)


📌 点估计

用样本统计量 θ ^ \hat{\theta} θ^的某个取值直接作为总体参数 θ \theta θ的估计值。比如用样本均值 x ˉ \bar{x} xˉ,作为总体均值 μ \mu μ的估计值。

📖 在重复抽样条件下,点估计的均值可望等于总体真值。

由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值,所以在使用点估计代表总体参数值时,需要给出点估计值的可靠性,即说明点估计值与总体参数的真实值的接近程度。

由于点估计值的可靠性由抽样标准误差衡量,所以具体的点估计值无法给出估计可靠性的度量,故需要围绕点估计值构造总体参数的一个区间,这是区间估计。


📌 区间估计
给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

📖 与点估计不同,区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。


📌 置信区间
样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。

可以理解为假设在需要估计GMV,估计的正确率需要达到95%,在95%的概率下计算出来GMV处于[100,101],得出的这个区间就是置信区间。


📌 置信水平
置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度,表示为 1 − α 1-\alpha 1α,其中 α \alpha α表示错误率,也称为显著性水平。

可以理解为参数估计的正确率,如上述GMV例子中的95%。


📖 样本量、置信水平与置信区间的关系
当样本量给定时,置信区间的宽度随着置信水平的增大而增大;
当置信水平固定时,置信区间的宽度随着样本量的增大而减小,即较大的样本所提供的有关总体的信息更多。


📖 对置信区间的理解,有3点需注意:

  1. 怎么理解置信水平为95%的置信区间?
    如果用某种方法构造的所有区间中有95%的区间包含总体样本的真值,5%的区间不包含总体参数的真值,那么用该方法构造的区间称为置信水平为95%的置信区间。

  2. 置信区间会因为样本不同而不同;
    总体参数的真值是固定的、未知的,而样本构造的区间是不固定的。所以置信区间是一个随机区间,会因为样本的不同而不同,而且不是所有的区间都包含总体参数的真值。

  3. 置信水平是针对随机区域而言的;
    不是用来描述某个特定区间包含总体参数真值的可能性。

比如某班级学生平均考试成绩置信水平为95%的置信区间为[60,80],不能说60~80分以95%的概率包含全班学生平均考试的真值。我们只知道在多次抽样中,95%的样本得到的区间包含全班学生平均考试成绩的真值。


7.1.3 评价估计量的标准

📌 无偏性

样本期望与总体参数无偏,即估计量抽样分布的数学期望等于被估计量总体参数;
设总体参数为 θ \theta θ,样本的估计量为 θ ^ \hat{\theta} θ^,如果 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ,则称 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计。

当样本均值的期望值等于总体均值,样本比例的期望值等于总体比例,那么样本方差的期望值等于总体误差。


📌 有效性
更小标准差的估计量更有效;对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。


📌 一致性
估计量与总体一致;随着样本量的增大,估计量的值越来越接近被估总体的参数,即样本量越大,标准差应该越小


7.2 如何估计一个总体参数的范围,及如何选择对应的分布公式?

总体思路:
根据样本和总体数据集的情况,以及需要求的参数是什么,来选择不同的分布公式。将指标带入公式计算,则得到总体的参数估计量。

比如:想通过样本数据集,求总体的均值是多少。如果样本数据集是大样本,则选择Z分布的公式;如果是小样本,则需要看总体的方差是否已知,如果总体方差不可得,则选择t分布的公式。

☑️ 对不同的参数进行估计,对应选择的不同分布
在这里插入图片描述


7.2.1 如何对总体均值的区间进行估计?

📖 不同情况下总体均值的区间估计公式

在这里插入图片描述


💡 z分布区间计算的excel公式:

=avg(样本值)±normsinv(1-$\alpha/ 2 ) ∗ 标 准 差 / 2)*标准差/ 2)/\sqrt{样本数量}$

估计总体均值,等于样本均值±给定显著性水平下的面积*标准差/样本数量开平方。即样本均值±均值估计误差


💡 excel中,t分布的临界值公式:=tinv(a,df),其中a为对应与双尾t分布的概率,df为自由度。
例如求 t α / 2 t_{\alpha/2} tα/2,其中a=0.05,则公式为:=tinv(0.05,20)


☑️ 总体均值区间估计的考虑因素:

  • 总体是否为正态分布
  • 总体方差是否已知
  • 估计量的样本是大样本(n≥30)还是小样本(n<30)

情况一:📖 正态分布, σ 2 \sigma^2 σ2已知;总体不是正态分布,大样本

样本均值 x ˉ \bar{x} xˉ的抽样分布均为正态分布, E ( x ˉ ) = μ E(\bar{x})=\mu E(xˉ)=μ D ( x ˉ ) = σ 2 n D(\bar{x})=\frac{\sigma^2}{n} D(xˉ)=nσ2,样本经过标准化以后的随机变量服从标准正态分布:

z = x ˉ − μ σ / n ∼ N ( 0 , 1 ) z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim{N(0,1)} z=σ/n xˉμN(0,1)

根据以上条件,再加上正态分布的性质,可以得出总体均值 μ \mu μ 1 − α 1-\alpha 1α置信水平下的置信区间为:

x ˉ ± z α / 2 σ n \bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}} xˉ±zα/2n σ

α \alpha α称为显著性水平,也就是错误率;
1 − α 1-\alpha 1α称为置信水平;
z α / 2 z_{\alpha/2} zα/2是当显著性水平为 α / 2 \alpha/2 α/2时的总体面积;
σ n \frac{\sigma}{\sqrt{n}} n σ是总体标准误差;
z α / 2 σ n z_{\alpha/2}\frac{\sigma}{\sqrt{n}} zα/2n σ是估计总体均值时的估计误差;


情况二:📖 正态分布, ∗ ∗ σ 2 **\sigma^2 σ2未知;总体不是正态分布,大样本**

样本均值 x ˉ \bar{x} xˉ的抽样分布均为正态分布, E ( x ˉ ) = μ E(\bar{x})=\mu E(xˉ)=μ,使用样本方差 s 2 s^2 s2代替总体方差 σ 2 \sigma^2 σ2,样本经过标准化以后的随机变量服从标准正态分布:

z = x ˉ − μ s / n ∼ N ( 0 , 1 ) z=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim{N(0,1)} z=s/n xˉμN(0,1)

根据以上条件,再加上正态分布的性质,可以得出总体均值 μ \mu μ 1 − α 1-\alpha 1α置信水平下的置信区间为:

x ˉ ± z α / 2 s n \bar{x}\pm z_{\alpha/2}\frac{s}{\sqrt{n}} xˉ±zα/2n s

α \alpha α称为显著性水平,也就是错误率;
1 − α 1-\alpha 1α称为置信水平;
z α / 2 s n z_{\alpha/2}\frac{s}{\sqrt{n}} zα/2n s是估计总体均值时的估计误差;


情况三:📖 正态分布, σ 2 \sigma^2 σ2未知,小样本

样本均值 x ˉ \bar{x} xˉ的抽样分布均为正态分布, E ( x ˉ ) = μ E(\bar{x})=\mu E(xˉ)=μ,样本均值经过标准化以后的随机变量则服从自由度为(n-1)的t分布:

t = x ˉ − μ s / n ∼ t ( n − 1 ) t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim{t(n-1)} t=s/n xˉμt(n1)

根据以上条件,再加上正态分布的性质,可以得出总体均值 μ \mu μ 1 − α 1-\alpha 1α置信水平下的置信区间为:

x ˉ ± t α / 2 s n \bar{x}\pm t_{\alpha/2}\frac{s}{\sqrt{n}} xˉ±tα/2n

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值