文章目录
![在这里插入图片描述](https://img-blog.csdnimg.cn/7ca3e11e8e9940f3861bc1b09f54fc3b.png#pic_center)
5.1 参数估计的原理
1、参数估计:用样本统计量去估计总体的参数。
2、估计量:用于估计总体参数的统计量的名称。如:样本均值,样本比例,样本方差等。
3、估计值:估计参数时计算出来的统计量的具体值。
5.1.1 点估计
1、点估计:用样本的估计量的某个取值直接作为总体参数的估计值。
2、特点:
-
一个点估计量的可靠性是由它的标准误来衡量的。这表明一个具体的点估计值无法给出估计的可靠性的度量,也无法给出估计值接近总体参数程度的信息。
-
由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值
5.1.2 区间估计
1、区间估计:在点估计基础上得到总体参数的一个估计区间,该区间通常由样本统计量加减估计误差。
- 例:约有95%的样本均值所构造的1.96个标准误的区间会包括μ;总体平均数有95%的可能在 X ̅±1.96σ/√n范围内。
2、置信区间:由样本估计量构造出的总体参数在一定置信水平下的估计区间。
3、置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例。也称置信度或置信系数。
置信水平 | Z下 | Z上 |
---|---|---|
90% | -1.65 | 1.65 |
95% | -1.96 | +1.96 |
99% | -2.58 | +2.58 |
4、对置信区间的理解
- 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。
- 总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数
- 实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
- 当抽取一个具体的样本,用该样本所构造的区间是一个特定的常数区间,无法知道这个样本所产生的区间是否包含总体参数的真值,它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个
- 一个特定区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题
- 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的
- 在其他条件不变时,较大的置信水平会得到较宽的置信区间(以更大的可能性包含总体参数),较大的样本量会得到一个较窄(较准确)的区间
5.1.3 估计量的评价标准
评价标准 | 意义 | 示例 |
---|---|---|
无偏性 | 估计量抽样分布的期望值等于被估计的总体参数。 | 样本均值、样本中位数样本比例、样本方差 |
有效性 | 估计量的方差的大小。反映估计量与参数的接近程度。对同一总体参数的两个无偏点估计量,标准差小的估计量更有效 | 样本均值比样本中位数更有效 |
一致性 | 随样本量的无限增大,统计量收敛于所估的总体参数。换而言之,一个大样本得到的估计量更接近于总体参数。 | 样本均值 |
5.2 总体均值的区间估计
5.2.1 一个总体均值的区间估计
总体均值的置信区间:样本均值±估计误差。
其中,估计误差由两部分组成:一是点估计的标准误,二是估计所要求的置信水平为(1-α)时,统计量分布两侧面积各位α/2时的分位数。
1、大样本的估计
example5_1<-read.csv("C:/example/ch5/example5_1.csv")
library(BSDA)
# z分布:大样本,总体方差未知
z.test(example5_1$耗油量,mu=0,sigma.x=sd(example5_1$耗油量),conf.level=0.90)
# z分布:大样本,总体方差已知
z.test(example5_1$耗油量,mu=0,sigma.y=1,conf.level=0.90)
# 只输出置信区间信息
z.test(example5_1$耗油量,mu=0,sigma.x=sd(example5_1$耗油量),conf.level=0.90)$conf.int
z.test(x, y=NULL, mu=0, sigma.x = NULL, sigma.y=NULL, conf.level=0.95)
用于构建基于标准正态分布的单样本和双样本的置信区间和假设检验。
2、小样本的估计
example5_2<-read.csv("C:/example/ch5/example5_2.csv")
# t分布:小样本,总体方差未知
t.test(example5_2,conf.level=0.95)
t.test(x, y=NULL, mu =0,paired=FALSE, var.equal = FALSE, ……)
用于构建基于t分布的单样本和双样本的置信区间和假设检验。独立样本时,paired=FALSE;方差不等时,var.equal=FALSE.
5.2.2 两个总体均值之差的区间估计
两个总体均值的置信区间:两个样本均值之差加减估计误差。
1、两个独立大样本的估计
example5_3<-read.csv("C:/example/ch5/example5_3.csv")
library(BSDA)
# 两个独立大样本,方差未知
z.test(example5_3$男性工资,example5_3$女性工资,mu=0,sigma.x=sd(example5_3$男性工资),sigma.y=sd(example5_3$女性工资,conf.level=0.95))
2、两个独立小样本的估计
example5_4<-read.csv("C:/example/ch5/example5_4.csv")
# 方差未知但相等
t.test(example5_4$方法一,example5_4$方法二,var.equal=TRUE)
# 方差未知且不等
t.test(example5_4$方法一,example5_4$方法二,var.equal=FALSE)
3、配对样本的估计
example5_5<-read.csv("C:/example/ch5/example5_5.csv")
# 小样本,配对样本
t.test(example5_5$试卷A,example5_5$试卷B,paired=TRUE)
5.3 总体比例的区间估计
5.3.1 一个总体比例的估计
总体比例的置信区间:样本比例±分位数×样本比例的标准误
1、大样本的估计(np>=10且n(1-p)>=10)
n<-500
x<-325
p<-x/n
# 计算出置信区间为95%时下的分位数值
q<-qnorm(0.975)# 1-a=0.95,a=0.05,a/2=0.025,1-a/2=0.975
LCI<-p-q*sqrt(p*(1-p)/n)
UCI<-p+q*sqrt(p*(1-p)/n)
data.frame(LCI,UCI)
# 使用Hmisc程序套件得到三种不同方法的区间
library(Hmisc)
n<-500
x<-325
binconf(x,n,alpha=0.05,method="all")
2、任意大小样本的估计
# 样本量+4;成功次数+2
n1<-500+4
x1<-325+2
p1<-x1/n1
q<-qnorm(0.975)
LCI<-p1-q*sqrt(p1*(1-p1)/n1)
UCI<-p1+q*sqrt(p1*(1-p1)/n1)
data.frame(LCI,UCI)
5.3.2 两个总体比例之差的估计
1、两个大样本的估计
p1<-225/500
p2<-128/400
q<-qnorm(0.975)
LCI<-(p1-p2)-q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
UCI<-(p1-p2)+q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
data.frame(LCI,UCI)
2、两个任意大小样本的估计
# 样本量+2;成功次数+1
p1<-225+1/500+2
p2<-128+1/400+2
q<-qnorm(0.975)
LCI<-(p1-p2)-q*sqrt(p1*(1-p1)/502+p2*(1-p2)/402)
UCI<-(p1-p2)+q*sqrt(p1*(1-p1)/502+p2*(1-p2)/402)
data.frame(LCI,UCI)
参数估计方法小结
1、一个总体参数的估计
2、两个总体参数的估计